Các nhà khoa học MIT đã xây dựng một framework đột phá giúp các trình tạo hình ảnh AI nhanh hơn 30 lần bằng cách nén các hệ thống trí tuệ nhân tạo như DALL·E 3 và Stable Diffusion thành các mô hình nhỏ hơn — mà không ảnh hưởng đến chất lượng của chúng.
Cụ thể, họ đã khám phá ra cách giúp Trình tạo hình ảnh AI chạy nhanh hơn đến 30 lần nhờ vào một kỹ thuật nén quá trình 100 bước thành một bước duy nhất, nghiên cứu mới chỉ ra.
Các nhà khoa học đã phát minh ra một kỹ thuật gọi là DMD (Distribution Matching Distillation) dạy các mô hình AI mới mô phỏng các trình tạo hình ảnh đã được thiết lập, được biết đến là các mô hình diffusion, chẳng hạn như DALL·E 3, Midjourney và Stable Diffusion.
Framework này giúp các mô hình AI nhỏ hơn và gọn nhẹ hơn có thể tạo ra hình ảnh nhanh hơn nhiều trong khi vẫn giữ lại chất lượng của hình ảnh cuối cùng. Các nhà khoa học đã trình bày một cách chi tiết các kết quả của họ trong một nghiên cứu được tải lên vào ngày 5 tháng 12 năm 2023, trên máy chủ trước in arXiv.
“Công trình của chúng tôi là một phương pháp mới giúp tăng tốc các mô hình diffusion hiện tại như Stable Diffusion và DALLE-3 lên đến 30 lần,” tác giả chia sẻ nghiên cứu cùng với Tianwei Yin, một sinh viên tiến sĩ ngành kỹ thuật điện và máy tính tại MIT, nói trong một công bố. “Sự tiến bộ này không chỉ giảm đáng kể thời gian tính toán mà còn giữ lại, nếu không vượt qua, chất lượng của nội dung hình ảnh được tạo ra.”
Các mô hình diffusion tạo ra hình ảnh thông qua một quá trình đa bước. Bằng cách sử dụng hình ảnh với chú thích văn bản mô tả và các siêu dữ liệu khác như dữ liệu huấn luyện, trí tuệ nhân tạo được huấn luyện để hiểu rõ ngữ cảnh và ý nghĩa đằng sau các hình ảnh — để có thể phản ứng chính xác với các thứ khởi đầu văn bản.
Trong thực tế, các mô hình này hoạt động bằng cách lấy một hình ảnh ngẫu nhiên và mã hóa nó với một trường nhiễu ngẫu nhiên để nó bị phá hủy, nhà khoa học trí tuệ nhân tạo Jay Alammar giải thích trong một bài đăng trên blog. Điều này được gọi là “forward diffusion“, và là một bước quan trọng trong quá trình huấn luyện. Tiếp theo, hình ảnh trải qua đến 100 bước để khử nhiễu, được gọi là “reverse diffusion” nhằm tạo ra một hình ảnh rõ ràng dựa trên thứ văn bản ban đầu.
Việc sắp xếp các hình ảnh dựa trên sự tương đồng trong quá trình huấn luyện, làm cho trí tuệ nhân tạo học nhanh hơn. Thứ hai được gọi là “distribution matching loss“, có nghĩa là khả năng miêu tả, ví dụ, một quả táo đã bị ăn một miếng tương ứng với tần suất bạn có thể gặp một trong thế giới thực. Cùng nhau, những kỹ thuật này giảm thiểu cách hình ảnh kỳ dị được tạo ra bởi mô hình AI.
“Việc giảm số lần trùng lặp là điều quan trọng nhất trong các mô hình diffusion từ khi chúng được tạo ra,” tác giả chia sẻ cùng với Fredo Durand, giáo sư kỹ thuật điện và máy tính tại MIT, nói trong tuyên bố. “Chúng tôi rất phấn khích khi cuối cùng đã cho phép tạo ra hình ảnh chỉ trong một bước, điều này sẽ giảm đáng kể chi phí tính toán và tăng tốc quá trình.”
Phương pháp mới này giảm đáng kể công suất tính toán cần thiết để tạo ra hình ảnh vì chỉ cần một bước thay vì “một trăm bước của sự tinh chỉnh lặp lại” trong các mô hình diffusion ban đầu, Yin nói. Mô hình cũng có thể mang lại lợi ích trong các ngành công nghiệp nơi việc tạo ra nhanh chóng và hiệu quả là rất quan trọng, các nhà khoa học nói, điều này dẫn đến việc tạo nội dung nhanh hơn nhiều.