Veo là gì? Veo là một mô hình tổng hợp video của Google tạo ra các video 1080p kéo dài một phút từ các lời nhắc bằng văn bản.
Vào thứ Ba tại sự kiện Google I/O 2024, Google đã công bố Veo, một mô hình tổng hợp video AI mới có thể tạo video HD từ các lời nhắc bằng văn bản, hình ảnh hoặc video, tương tự như Sora của OpenAI. Veo có thể tạo ra các video 1080p kéo dài hơn một phút và chỉnh sửa video dựa trên hướng dẫn bằng văn bản, nhưng hiện tại vẫn chưa được phát hành rộng rãi.
Theo báo cáo, Veo AI có khả năng chỉnh sửa video hiện có bằng các lệnh văn bản, duy trì sự nhất quán về hình ảnh giữa các khung hình và tạo ra các chuỗi video kéo dài lên đến và vượt quá 60 giây từ một lời nhắc duy nhất hoặc một chuỗi các lời nhắc tạo thành câu chuyện. Công ty cho biết Veo có thể tạo ra các cảnh chi tiết và áp dụng hiệu ứng điện ảnh như tua nhanh thời gian, cảnh quay từ trên cao và nhiều phong cách hình ảnh khác nhau.
Kể từ khi DALL-E 2 ra mắt vào tháng 4 năm 2022, chúng ta đã chứng kiến một loạt các mô hình tổng hợp hình ảnh và video mới nhằm cho phép bất kỳ ai có thể gõ mô tả bằng văn bản để tạo ra hình ảnh hoặc video chi tiết. Mặc dù cả hai công nghệ này vẫn chưa được hoàn thiện, nhưng các trình tạo hình ảnh và video AI đều ngày càng trở nên mạnh mẽ hơn.
Vào tháng 2, chúng tôi đã đưa tin về bản xem trước của trình tạo video Sora của OpenAI, mà tại thời điểm đó, nhiều người tin rằng là công nghệ tổng hợp video AI tốt nhất mà ngành có thể cung cấp. Nó ấn tượng đến mức Tyler Perry đã tạm hoãn kế hoạch mở rộng studio phim của mình. Tuy nhiên, đến nay OpenAI vẫn chưa cung cấp quyền truy cập rộng rãi vào công cụ này, mà chỉ giới hạn cho một nhóm người thử nghiệm.
Hiện tại, Veo của Google dường như có khả năng tương tự Sora trong việc tạo video. Chúng tôi chưa tự mình thử nghiệm, vì vậy chỉ có thể dựa vào các video minh họa do công ty cung cấp trên trang web của họ. Điều này có nghĩa là người xem nên cân nhắc kỹ những tuyên bố của Google, bởi kết quả tạo ra có thể không phải là tiêu biểu.
Các video mẫu của Veo bao gồm hình ảnh cao bồi cưỡi ngựa, một cảnh quay nhanh trên đường phố ngoại ô, thịt xiên nướng trên vỉ, một bông hướng dương nở theo tua nhanh thời gian, và nhiều nội dung khác. Tuy nhiên, đáng chú ý là không có hình ảnh chi tiết nào về con người, vốn là một thách thức lâu nay đối với các mô hình hình ảnh và video AI vì thường gặp các biến dạng rõ rệt.
Google cho biết Veo được xây dựng dựa trên các mô hình tạo video trước đây của công ty, bao gồm Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet, và Lumiere. Để nâng cao chất lượng và hiệu quả, dữ liệu huấn luyện của Veo bao gồm chú thích video chi tiết hơn và sử dụng các biểu diễn video “tiềm ẩn” đã được nén. Việc này giúp AI diễn giải chính xác hơn các lời nhắc.
Một điểm đáng chú ý khác của Veo là hỗ trợ các lệnh làm phim: “Khi nhận được cả video đầu vào và lệnh chỉnh sửa, chẳng hạn thêm thuyền kayak vào một cảnh quay từ trên cao của bờ biển, Veo có thể áp dụng lệnh này vào video ban đầu và tạo ra video mới đã chỉnh sửa,” công ty cho biết.
Mặc dù các bản demo ban đầu trông ấn tượng (đặc biệt so với video Will Smith ăn spaghetti), Google thừa nhận rằng việc tạo video bằng AI là một thách thức. “Duy trì sự nhất quán về hình ảnh là một thách thức đối với các mô hình tạo video,” công ty viết. “Nhân vật, đối tượng hoặc thậm chí toàn bộ cảnh có thể nhấp nháy, nhảy hoặc biến dạng bất ngờ giữa các khung hình, gây gián đoạn trải nghiệm xem.”
Google đã cố gắng giảm thiểu các nhược điểm này bằng “các bộ biến đổi khuếch tán tiềm ẩn tiên tiến”, mặc dù đây có vẻ như là thuật ngữ tiếp thị không cụ thể. Tuy nhiên, công ty tự tin đến mức đang hợp tác với diễn viên Donald Glover và studio của anh, Gilga, để tạo ra một bộ phim trình diễn do AI tạo ra sẽ ra mắt sớm.
Ban đầu, Veo sẽ được cung cấp cho một số nhà sáng tạo thông qua VideoFX, một công cụ thử nghiệm mới có sẵn trên trang web AI Test Kitchen của Google, labs.google. Các nhà sáng tạo có thể tham gia danh sách chờ của VideoFX để có cơ hội trải nghiệm các tính năng của Veo trong vài tuần tới. Google cũng có kế hoạch tích hợp một số tính năng của Veo vào YouTube Shorts và các sản phẩm khác trong tương lai.
Hiện vẫn chưa có thông tin chính thức về dữ liệu huấn luyện của Veo (nhiều khả năng YouTube đã được sử dụng). Tuy nhiên, Google cho biết họ đang áp dụng cách tiếp cận “có trách nhiệm” với Veo. Theo công ty, “Các video được tạo bởi Veo được gắn watermark bằng SynthID, công cụ tiên tiến của chúng tôi để gắn watermark và xác định nội dung do AI tạo ra, đồng thời được kiểm tra qua các bộ lọc an toàn và quy trình kiểm tra ghi nhớ nhằm giảm thiểu rủi ro về quyền riêng tư, bản quyền và thiên vị.”