Apple vừa giới thiệu mô hình AI đột phá của mình, ReALM, được cho là sẽ vượt qua GPT-4 của OpenAI, phá vỡ các ranh giới truyền thống.
Xung quanh sự kiện gây xôn xao về việc Apple công bố mô hình mới MM1 vào tháng trước, công ty công nghệ này đã giới thiệu một ứng cử viên khác dự định sẽ vượt qua GPT-4 của OpenAI với mô hình AI mới nhất của mình, ReALM (Reference Resolution As Language Modeling).
Mô hình mới này hiểu biết nhiều ngữ cảnh và cung cấp thông tin chính xác. Người dùng có thể đặt câu hỏi, các câu hỏi này có thể hiển thị trên màn hình hoặc chạy ẩn và nhận được câu trả lời chính xác một cách trôi chảy.
“Chúng tôi cũng đã tiến hành so sánh với GPT-3.5 và GPT-4, với mô hình nhỏ nhất của chúng tôi đạt hiệu suất tương đương với GPT-4, và các mô hình lớn hơn của chúng tôi vượt trội hơn rất nhiều,” các nhà nghiên cứu đã nói trong bài báo có tựa đề ReALM: Reference Resolution As Language Modeling.
Các nhà nghiên cứu bao gồm Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, và Nidhi Rajshree.
Khác biệt giữa ReALM và GPT-4
Các nhà nghiên cứu của Apple nói rằng sự khác biệt giữa GPT-3.5 và GPT-4 là cách họ xử lý thông tin. Họ nói rằng GPT-3.5 chỉ có thể hiểu văn bản, vì vậy chúng ta chỉ cung cấp cho nó các gợi ý văn bản. Ngược lại, GPT-4 cũng có thể hiểu hình ảnh. Sự kết hợp này giúp GPT-4 hoạt động tốt hơn nhiều.
Tuy nhiên, mô hình AI của Apple – ReALM sử dụng cả văn bản và hình ảnh (như ảnh chụp màn hình) để hiểu và phản hồi các gợi ý một cách hiệu quả hơn.
Tuy nhiên, các nhà nghiên cứu nói rằng còn nhiều cách khác để tăng cường kết quả, như sử dụng các cụm từ tương tự cho đến khi bạn đạt được một độ dài nhất định của gợi ý. “Cách tiếp cận phức tạp này đáng để nghiên cứu chuyên sâu hơn, và chúng tôi sẽ thực hiện công việc này trong tương lai.”
Hơn nữa, họ nói rằng mô hình ReALM sẽ được thử nghiệm trên ba loại thực thể khác nhau liên quan đến các nhiệm vụ đa dạng: thực thể trên màn hình, thực thể trò chuyện và thực thể nền.
Giải mã Reference Resolution
Các nhà nghiên cứu của Apple còn nói rằng việc hiểu các tham chiếu như ‘họ’ hoặc ‘đó’ trong lời nói của con người là tự nhiên đối với não của chúng ta và giúp chúng ta dễ dàng hiểu các gợi ý ngữ cảnh.
Tuy nhiên, giải mã các tham chiếu như vậy đối với một chatbot dựa trên LLM là một thách thức vì nó gặp khó khăn trong việc hiểu ngữ cảnh mong muốn.
Thách thức này được gọi là giải quyết tham chiếu, nơi mục tiêu là hiểu rõ thực thể hoặc khái niệm cụ thể mà một biểu hiện tham chiếu đề cập đến.
Các nhà nghiên cứu tin rằng khả năng tiết kiệm năng lượng và ràng buộc về độ trễ của các hệ thống như vậy đòi hỏi việc sử dụng một ‘LLM duy nhất’ với các gợi ý mở rộng để đạt được trải nghiệm mượt mà.
Ví dụ, một người dùng hỏi về các nhà thuốc gần đây, điều này có thể được thực hiện bởi Siri, để hiển thị một danh sách. Sau đó, người dùng hỏi để gọi số ở dưới cùng (hiển thị trên màn hình).
Siri sẽ không thực hiện nhiệm vụ cụ thể này. Tuy nhiên, với ReALM, mô hình ngôn ngữ có thể hiểu ngữ cảnh bằng cách phân tích dữ liệu trên thiết bị và thực hiện truy vấn.
Điều này cũng gợi ý rằng, tại WWDC 2024, sẽ diễn ra từ ngày 10 đến 14 tháng 6 năm 2024, Siri có khả năng sẽ nhận được một nâng cấp AI Tạo sinh, mở đường và đánh dấu sự xuất hiện của ReALM.
“Đây sẽ là điều thật tuyệt vời!” nói Greg Joswiak, Phó Chủ tịch tiếp thị của Apple, trong bài đăng gần đây của mình, thông tin thêm về các đổi mới trí tuệ nhân tạo sẽ được tiết lộ tại hội nghị của các nhà phát triển.