OpenAI vừa tiết lộ mô hình AI chuyển văn bản thành video mang tính đột phá của mình. Sora của OpenAI không giống như các đối thủ cạnh tranh sản xuất các đoạn clip ngắn, Sora của OpenAI tạo ra các video dài tới một phút, bao gồm các cảnh phức tạp, chuyển động của camera và nhiều nhân vật tràn đầy cảm xúc. Sự tiến bộ này đặt ra một chuẩn mực mới trong lĩnh vực tạo video bằng AI.
Hiện tại, Sora của OpenAI chỉ có thể truy cập một cách giới hạn cho một nhóm gồm các chuyên gia an ninh mạng và người sáng tạo nội dung để thử nghiệm và phản hồi. OpenAI có kế hoạch tích hợp siêu dữ liệu C2PA để chống lại việc lạm dụng, tương tự cách tiếp cận của nó với mô hình DALL-E 3. Công cụ này mở ra một tương lai cho việc sản xuất các video dài hơn, chi tiết hơn hoàn toàn bằng AI.
Khả năng ấn tượng của Sora của OpenAI bắt nguồn từ kiến trúc Transformer và xử lý dữ liệu dựa trên bản vá, tương tự như các đối tác tạo văn bản của nó. Điều này cho phép mô hình tạo video với thời lượng, độ phân giải và tỷ lệ khung hình đa dạng. Ngoài ra, Sora của OpenAI có thể chuyển đổi hình ảnh tĩnh thành nội dung video.
Bất chấp những điểm mạnh của nó, OpenAI thừa nhận những hạn chế, bao gồm cả những điểm hạn chế, đôi khi thiếu chính xác trong việc mô phỏng vật lý phức tạp và hiểu các kịch bản nguyên nhân và kết quả. Để giải quyết những vấn đề này, công ty đang phát triển các công cụ phát hiện nội dung gây hiểu lầm và cộng tác với các thành viên nhóm đỏ để tinh chỉnh sự hiểu biết của mô hình về các chủ đề nhạy cảm.
Hiện tại, quyền truy cập còn hạn chế nhưng Sora của OpenAI đã mở ra một tương lai nơi mọi người có thể tạo video chi tiết, chất lượng cao chỉ bằng lời nhắc bằng văn bản. Công nghệ này có tiềm năng to lớn cho nhiều ứng dụng khác nhau, từ giải trí, giáo dục đến thiết kế và tiếp thị. Tuy nhiên, những cân nhắc về mặt đạo đức vẫn rất quan trọng để ngăn chặn việc lạm dụng và cách tiếp cận chủ động của OpenAI trong vấn đề này rất đáng khen ngợi.