VASA-1, một công cụ AI mới của Microsoft, cho phép chuyển đổi ảnh tĩnh hoặc bản vẽ thành video người nói chuyện và ca hát chân thực.
Trí tuệ nhân tạo do Microsoft phát triển có khả năng chuyển hình ảnh thành video
Theo Engadget, VASA-1, một công cụ trí tuệ nhân tạo mới của Microsoft Research Asia, có khả năng chuyển đổi ảnh tĩnh hoặc bản vẽ của một cá nhân thành video khi họ nói chuyện hoặc hát. Công nghệ này có thể tạo nét mặt và chuyển động đầu cho hình ảnh tĩnh và chuyển động môi cho âm thanh đang phát.
Công cụ VASA-1, bao gồm “hơn 1 triệu lời nói của 6.112 người nổi tiếng”, đã được đào tạo trên bộ dữ liệu VoxCeleb2. Nó đã được thử nghiệm thành công trên hình ảnh nghệ thuật và thực tế, chẳng hạn như Mona Lisa.
Mặc dù công nghệ này có thể nâng cao trải nghiệm người dùng, nhưng nó cũng có thể bị lạm dụng để tạo ra các video deepfake.
Để ngăn chặn việc này xảy ra, các nhà nghiên cứu từ Microsoft Research Asia quyết định không phát hành bất kỳ sản phẩm nào liên quan đến công nghệ này cho đến khi có biện pháp bảo vệ trách nhiệm thích hợp.
Do đó, các nhà nghiên cứu vẫn hy vọng vào công nghệ AI mới có thể cải thiện tính công bằng trong giáo dục và cho phép những người gặp khó khăn trong giao tiếp tiếp cận.
Ngoài ra, họ tin rằng công nghệ này có thể cho phép các chương trình truyền đạt thông tin thông qua các nhân vật AI có thể nói chuyện và hỗ trợ trị liệu cho những người cần.