DALL-E 3 sẽ ra mắt vào tháng 10 nâng cấp khả năng hiểu prompt vượt trội

[Hot] Tìm hiểu về AI & Data Science tại AI4vietnam

[Upcoming] Tổng hợp các khóa học cho người làm IT

OpenAI vừa tiết lộ DALL-E 3, phiên bản mới nhất của mô hình tạo văn bản thành hình ảnh tiên tiến nhất của mình. Bản phát hành sắp tới này hứa hẹn sẽ điều chỉnh chính xác hơn với lời nhắc bằng văn bản do người dùng cung cấp, loại bỏ yêu cầu về kỹ thuật lời nhắc phức tạp.

Trong một thông báo được đưa ra vào thứ Tư, OpenAI đã chia sẻ kế hoạch giới thiệu DALL-E 3 vào tháng 10, nêu bật các khả năng nâng cao của nó cho phép hiểu sâu hơn về các mô tả văn bản nhiều sắc thái so với các phiên bản trước.

Bước đột phá trong sáng tạo hình ảnh với lời nhắc văn bản

“Các hệ thống chuyển văn bản thành hình ảnh hiện đại có xu hướng bỏ qua các từ hoặc mô tả, buộc người dùng phải tìm hiểu kỹ thuật prompt. DALL·E 3 thể hiện một bước nhảy vọt về khả năng của chúng tôi trong việc tạo ra các hình ảnh tuân thủ chính xác văn bản bạn cung cấp”, theo bài đăng blog trên trang web của OpenAI.

“DALL·E 3 được xây dựng nguyên bản trên ChatGPT, cho phép bạn sử dụng ChatGPT làm hỗ trợ sáng tạo và sàng lọc các lời nhắc của mình. Chỉ cần hỏi ChatGPT bạn muốn thấy bất kỳ điều gì, từ một câu đơn giản hay một đoạn mô tả chi tiết.”

Giám đốc điều hành OpenAI Sam Altman tỏ ra thực sự hứng khởi đối với mô hình AI mới, được mô tả qua đoạn video “THẬT DỄ THƯƠNG” chia sẻ trên Twitter. (Xem video bên dưới)

Từ chối sao chép phong cách của nghệ sĩ đương đại

Một trong những điểm đáng chú ý nhất của DALL·E 3 là khả năng từ chối các yêu cầu về hình ảnh theo phong cách của các nghệ sĩ đang sống. Hơn nữa, người sáng tạo hiện có thể từ chối sử dụng hình ảnh của họ để huấn luyện các mô hình tạo hình ảnh trong tương lai.

DALL·E ra mắt lần đầu vào tháng 1 năm 2021 với tư cách là một dòng sản phẩm của GPT-3.5. Cái tên “DALL-E” là sự kết hợp của “Dali”, ám chỉ nghệ sĩ siêu thực Salvador Dali và “WALL-E”, lấy cảm hứng từ robot hoạt hình trong các bộ phim Pixar.

DALL·E đã thu hút được sự chú ý đáng kể khi được giới thiệu nhờ khả năng độc đáo trong việc chuyển đổi mô tả văn bản thành hình ảnh gốc, thu hẹp khoảng cách giữa xử lý ngôn ngữ tự nhiên và thị giác máy tính một cách hiệu quả.

Hạn chế đáng kể các mối lo ngại về đạo đức

Mặc dù DALL·E đã cho thấy những khả năng vượt trội nhưng nó cũng đặt ra những lo ngại chung về mặt đạo đức đối với nhiều mô hình AI. Những mối lo ngại này bao gồm khả năng sử dụng sai mục đích, tạo ra nội dung không phù hợp hoặc có hại cũng như những thách thức liên quan đến bản quyền và sở hữu trí tuệ.

Tính năng của DALL·E 3 cho phép nó từ chối lời nhắc về những hình ảnh giống tác phẩm của các nghệ sĩ còn sống, mang lại một giải pháp khả thi với những vấn đề đạo đức này.

[embedyt] https://www.youtube.com/watch?v=4NCrJ1bNtCc[/embedyt]

Cam kết cải tiến của OpenAI

OpenAI vẫn cam kết cải thiện và hoàn thiện DALL·E, đồng thời tích cực đánh giá việc sử dụng có trách nhiệm của nó trên nhiều ứng dụng khác nhau. DALL·E 2, phiên bản trước đó, đã kết hợp nhiều cải tiến và thay đổi.

DALL·E 3 sẽ sớm được cung cấp cho khách hàng ChatGPT Plus và Enterprise. Điều quan trọng là hình ảnh được tạo bằng mô hình sẽ thuộc về người dùng và sẽ không cần sự cho phép của OpenAI đối với các hoạt động như in lại, bán hoặc xuất bản.