The Information, đã báo cáo vào ngày 26 tháng 8 rằng Dự án Strawberry sẽ vượt trội hơn về toán học và lập trình so với bất kỳ chatbot hiện có nào – Mô hình GPT-Next mạnh gấp 100 lần GPT-4 và có khả năng phân tích video theo thời gian thực, chia sẻ từ “hai người đã tham gia vào dự án này”.
OpenAI có khả năng sẽ phát hành mô hình AI mạnh mẽ nhất của mình vào mùa thu này (tháng 9-tháng 11), và có thể tích hợp nó vào ChatGPT-5, phiên bản mới của chatbot và trợ lý ảo mà họ đã ra mắt vào cuối năm 2022.
Dự án bí mật này, mà OpenAI đã làm việc từ lâu, trước đây được biết đến với tên gọi Dự án Q* (Q-star), và hiện nay có tên mã là Dự án Strawberry. Nó được dự đoán sẽ có khả năng tự nghiên cứu trên Internet và cải thiện đáng kể khả năng suy luận của AI.
Đây được coi là nỗ lực của OpenAI trong việc tạo ra Trí tuệ Nhân tạo Tổng quát (Artificial General Intelligence) — AI với khả năng tương tự như bộ não con người.
Vào ngày 7 tháng 8, Giám đốc điều hành của OpenAI, Sam Altman, đã đăng một hình ảnh của những quả dâu tây đang mọc trong hai chậu lên tài khoản X của mình. Bài đăng này được coi là sự xác nhận rằng OpenAI đang làm việc trên mô hình ngôn ngữ lớn mới và mạnh mẽ.
Báo cáo cho biết OpenAI đã trình diễn một phiên bản của mô hình mới này cho các quan chức an ninh quốc gia, dường như là một tuyên bố về cam kết của họ đối với tính minh bạch trong bối cảnh sự phát triển nhanh chóng của AI đã dấy lên những lo ngại nghiêm trọng về an ninh từ các chính phủ quốc gia.
Việc tích hợp với ChatGPT sẽ làm cho ChatGPT trở thành chatbot AI mạnh mẽ nhất hiện có, báo cáo cho biết. Đôi khi ChatGPT gặp khó khăn với toán học, và các chuyên gia cho rằng các lỗi này có thể do thiếu thông tin toán học đầy đủ trong dữ liệu huấn luyện.
Báo cáo của The Information cho biết một buổi trình diễn của nhóm Dự án Strawberry đã cho thấy mô hình AI mới có khả năng tư duy cấp cao, cho phép nó giải các câu đố, bao gồm cả trò chơi chữ ‘Connections’ của The New York Times, một câu đố đặc biệt khó.
Nhu cầu về huấn luyện
The Information cho biết Dự án Strawberry nhằm mục đích huy động thêm vốn, mà OpenAI cần cho mô hình tiếp theo của họ, có tên mã là Orion.
Việc tạo ra dữ liệu huấn luyện chất lượng cao cho Orion được cho là một trong những ứng dụng chính của Dự án Strawberry. Điều này rất quan trọng vì hầu hết dữ liệu huấn luyện trên Internet đã được sử dụng, và hiện nay đang thiếu thông tin miễn phí để truy cập cho mục đích huấn luyện các mô hình AI.
Do vậy, OpenAI gần đây đã thực hiện các thỏa thuận với các ấn phẩm để sử dụng nội dung của họ trong việc huấn luyện.
Dự án Orion, được thiết kế để vượt trội hơn GPT-4, có thể sử dụng sự kết hợp của Dự án Strawberry và dữ liệu tổng hợp chất lượng cao có khả năng giảm lỗi và ảo giác so với các phiên bản trước và các mô hình AI khác.
Tạo ra dữ liệu tổng hợp
Altman đã nói rằng để thử nghiệm các cách khác nhau để huấn luyện các mô hình AI, OpenAI đã thử nghiệm cách tạo ra lượng lớn dữ liệu tổng hợp. Các mô hình AI tạo sinh tạo ra dữ liệu tổng hợp dựa trên các mẫu dữ liệu thực tế.
Các thuật toán học các mẫu, mối tương quan và các đặc tính thống kê của dữ liệu mẫu; sau khi được huấn luyện, mô hình có thể tạo ra dữ liệu tổng hợp giống hệt về mặt thống kê.
Các tập dữ liệu lớn mà các mô hình AI dựa vào có thể dễ bị thiên lệch và lỗi, hoặc có thể chứa thông tin không đầy đủ hoặc không chính xác — dữ liệu tổng hợp chất lượng cao do Dự án Strawberry tạo ra có thể lấp đầy các khoảng trống trong các tập dữ liệu thực tế và cung cấp một tập huấn luyện toàn diện, bao trùm và cân bằng hơn.
Nhiều người tin rằng việc sử dụng dữ liệu tổng hợp có thể giúp làm cho các mô hình AI trong tương lai trở nên trung lập và công bằng hơn, và giảm thiểu nhiễu và thông tin không liên quan — do đó cải thiện cả hiệu quả huấn luyện và độ chính xác của mô hình.
Dựa trên những gì đã biết, khả năng suy luận, logic được cải thiện và khả năng lập kế hoạch và thực hiện nghiên cứu của Dự án Strawberry có thể cho phép mô hình này tự động tiến hành các thí nghiệm, phân tích dữ liệu và đưa ra các giả thuyết mới.
Điều này có thể dẫn đến những đột phá khoa học, bao gồm cả việc khám phá ra các loại thuốc mới. Các mô hình này cũng có thể cung cấp giáo dục cá nhân hóa, tạo ra nội dung giáo dục và các bài học tương tác.