Cuộc đua công nghệ giữa các công ty lớn như Meta và Google ngày càng trở nên sôi động hơn khi họ liên tục giới thiệu các ứng dụng AI mới nhằm đáp ứng nhu cầu ngày càng tăng của người dùng trong việc tạo hình ảnh và video từ văn bản mô tả. Mới đây, Meta ra mắt Imagine with Meta và Make-A-Video, cạnh tranh với Google AI.
Như DALL-E, Midjourney, và Stable Diffusion của OpenAI, ứng dụng mới Imagine with Meta đang được phát triển dựa trên mô hình tạo hình ảnh Emu của mạng xã hội khổng lồ này.
Đáng chú ý là cuộc đối đầu giữa Google với AI Gemini và Meta với Imagine with Meta và Make-A-Video. Hai ứng dụng này đều được tạo ra để biến các mô tả văn bản thành hình ảnh chất lượng cao. Trong khi AI Gemini của Google tập trung vào tạo hình ảnh, Meta đưa ra một ứng dụng đa năng, cho phép người dùng tạo ra cả hình ảnh và video bằng văn bản mô tả.
Imagine with Meta, chạy độc lập trên web, được xây dựng trên nền tảng của mô hình Emu AI hiện có của Meta. Ứng dụng này không chỉ tạo ra hình ảnh chất lượng cao mà còn cho phép tạo bốn hình ảnh khác nhau cho mỗi đoạn mô tả. Đây là một bước tiến lớn, mang lại sự linh hoạt và đa dạng cho người dùng.
Tuy nhiên, việc tạo ra công cụ tạo hình ảnh và video từ văn bản không chỉ mang lại thành công mà còn đối mặt với những thách thức lớn. Một trong những vấn đề chính mà Meta đang phải đối diện là việc đảm bảo tính minh bạch và tránh thiên vị trong công nghệ AI của họ, như trường hợp trình tạo sticker gây ra sự phân biệt chủng tộc gần đây.
Để giải quyết vấn đề này, Meta đã cam kết gắn dấu mờ vào các nội dung được tạo ra bằng Imagine with Meta. Hình mờ này có khả năng phục hồi trước các chỉnh sửa phổ biến như cắt xén, thay đổi kích thước, thay đổi màu sắc, từ đó tăng cường tính minh bạch và nguồn gốc của hình ảnh.
Cùng với việc áp dụng các biện pháp như gắn dấu nhận diện, các công ty công nghệ đang nỗ lực để đáp ứng các quy định và tiêu chuẩn liên quan đến việc gắn nhãn và xác thực nội dung được tạo ra bằng công nghệ AI.
Tại Trung Quốc, quy định yêu cầu gắn dấu nhận diện cho nội dung được tạo bởi AI đã được áp dụng, thể hiện sự quan tâm lớn về tranh chấp liên quan đến nguồn gốc và tính xác thực của thông tin.
Bên cạnh việc tạo hình ảnh, Meta cũng đã đạt một bước tiến quan trọng trong việc tạo video từ văn bản với Make-A-Video. Kỹ thuật này, dù ấn tượng về khả năng chuyển đổi văn bản thành video nhưng vẫn đối diện với một số vấn đề.
Make-A-Video của Meta tạo ra những video có chất lượng mô phỏng stop-motion, mang đến cảm giác lạ lùng và siêu thực. Mặc dù có sự tiến bộ, chất lượng của các video vẫn còn khiến người xem cảm thấy kỳ lạ và khó chịu.
Những điều này không chỉ đặt ra câu hỏi về tính chân thực của thông tin được tạo ra từ công nghệ này mà còn về mức độ tạo ra nội dung đúng mục đích và thẩm mỹ. Mặc dù là một bước tiến quan trọng, việc cải thiện chất lượng và độ chân thực của video từ văn bản vẫn là thách thức lớn đối với các nhà nghiên cứu và kỹ sư công nghệ.