Mô hình AI Transframer tạo video dài 30s chỉ từ một khung hình duy nhất

[Hot] Tìm hiểu về AI & Data Science tại AI4vietnam

[Upcoming] Tổng hợp các khóa học cho người làm IT

AI video mới của Deepmind, Transframer có thể tạo ra video dài 30 giây chỉ từ một khung hình duy nhất.

Transframer là một công cụ AI mới của Google, lần đầu tiên được công bố vào năm 2017. Cấu trúc liên kết mạng thần kinh “độc nhất vô nhị” của nó cho phép nó lập mô hình và so sánh các từ trong một cụm từ để tạo ra văn bản. Kể từ đó, Transframer đã được áp dụng vào nhiều chương trình máy học phổ biến như TensorFlow hay PyTorch.

Transframer có thể sử dụng ảnh với các đặc điểm ngữ cảnh tương tự để truy vấn chú thích nhằm tạo ra video nhanh xoay quanh hình ảnh mục tiêu và phối cảnh, giống như cách nó sử dụng ngôn ngữ để dự đoán kết quả đầu ra có thể. Mặc dù thực tế là nó không cung cấp bất kỳ dữ liệu hình ảnh đầu vào nào (hình ảnh gốc).

Nền tảng DeepMind AI đã được Google sử dụng để trình diễn công nghệ mới, phân tích hình ảnh để trích xuất dữ liệu hình ảnh quan trọng và tạo ra hình ảnh bổ sung. Thuật toán giúp dự đoán khung cảnh xung quanh đối tượng chính bằng cách xác định khung của ảnh trong quá trình phân tích này.

Sau đó, nó có thể dự đoán một hình ảnh từ nhiều góc độ khác nhau bằng cách sử dụng những bức ảnh này. Sử dụng dữ liệu, chú thích và bất kỳ thông tin nào khác từ khung ngữ cảnh để dự báo mô hình xác suất của các khung bổ sung.

Khung này đánh dấu một nước tiến lớn trong công nghệ video bằng cách cung cấp khả năng tạo video chính xác dựa trên nguồn dữ liệu đầu vào hạn chế.

Framework này có khả năng tạo video chính xác dựa trên dữ liệu đầu vào giới hạn, một tiến bộ đáng kể trong công nghệ video. Các tác vụ Transframer cũng đã cho thấy kết quả cực kỳ hứa hẹn trên các tác vụ và điểm chuẩn khác liên quan đến video như phân đoạn ngữ nghĩa, phân loại hình ảnh và dự đoán luồng quang học.

Công nghệ như Transframer cung cấp cho các nhà phát triển một hướng mới sử dụng công nghệ AI và máy học để xây dựng sản phẩm của họ trong khi giảm thời gian, tài nguyên và nỗ lực hơn. Nó sẽ tác động lớn các ngành công nghiệp dựa trên video, chẳng hạn như phát triển trò chơi v.v… Môi trường phát triển trò chơi diện tại dựa vào các kỹ thuật chính như đổ bóng, ánh xạ, độ sâu trường ảnh và dò tia.

Ngoài thực hiện các nhiệm vụ hình ảnh truyền thống như ước tính độ sâu và phát hiện đối tượng, Transframer còn có khả năng tổng hợp các góc ảnh mới của một đối tượng và dự đoán quỹ đạo video.

(Theo Maximilian Schreiner)