OpenAI ra mắt mô hình GPT-4o ‘omni’ sử dụng trên ChatGPT

[Hot] Tìm hiểu về AI & Data Science tại AI4vietnam

[Upcoming] Tổng hợp các khóa học cho người làm IT

OpenAI đã công bố một mô hình AI Tạo sinh mới vào thứ Hai mà họ gọi là GPT-4o — “o” đại diện cho “omni,” ám chỉ khả năng của mô hình trong việc xử lý văn bản, giọng nói và video. GPT-4o sẽ từng bước được triển khai trên các sản phẩm dành cho nhà phát triển và người dùng của công ty trong vài tuần tới.

Giám đốc kỹ thuật của OpenAI, Mira Murati, cho biết GPT-4o cung cấp trí tuệ ở mức “GPT-4” nhưng cải thiện khả năng của GPT-4 trên nhiều phương thức và phương tiện khác nhau.

“GPT-4o có thể suy luận qua giọng nói, văn bản và hình ảnh,” Murati nói trong buổi thuyết trình trực tuyến tại văn phòng OpenAI ở San Francisco vào thứ Hai. “Và điều này rất quan trọng, vì chúng tôi đang hướng đến tương lai của sự tương tác giữa con người và máy móc.”

GPT-4 Turbo, mô hình “tiên tiến nhất” trước đây của OpenAI, được đào tạo trên sự kết hợp của hình ảnh và văn bản và có thể phân tích hình ảnh và văn bản để thực hiện các nhiệm vụ như trích xuất văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó. Nhưng GPT-4o được bổ sung thêm giọng nói.

Điều này mang lại những lợi ích gì? Rất nhiều.

GPT-4o cải thiện đáng kể trải nghiệm trong chatbot hỗ trợ AI của OpenAI, ChatGPT. Nền tảng này đã lâu cung cấp chế độ giọng nói chuyển lời phản hồi của chatbot thành giọng nói bằng mô hình chuyển đổi văn bản thành giọng nói, nhưng GPT-4o nâng cấp tính năng này, cho phép người dùng tương tác với ChatGPT giống như một trợ lý hơn.

Ví dụ, người dùng có thể đặt câu hỏi cho ChatGPT được hỗ trợ bởi GPT-4o và ngắt lời ChatGPT khi nó đang trả lời. Mô hình cung cấp khả năng phản hồi “thời gian thực,” OpenAI cho biết, và thậm chí có thể nhận ra những sắc thái trong giọng nói của người dùng, từ đó tạo ra giọng nói với “một loạt các phong cách cảm xúc khác nhau” (bao gồm cả hát).

GPT-4o cũng nâng cấp khả năng nhận diện hình ảnh của ChatGPT. Với một bức ảnh — hoặc màn hình máy tính — ChatGPT giờ đây có thể nhanh chóng trả lời các câu hỏi liên quan, từ các chủ đề như “Có lỗi gì trong mã phần mềm này?” đến “Người này đang mặc áo hiệu gì?”

Các tính năng này sẽ tiếp tục phát triển trong tương lai, Murati cho biết. Hiện tại, các tính của GPT-4o bao gồm khả xem một bức ảnh của một menu bằng ngôn ngữ khác và dịch nó, trong tương lai, mô hình này có thể cho phép ChatGPT, chẳng hạn, “xem” một trận đấu thể thao trực tiếp và giải thích các quy tắc cho bạn.

“Chúng tôi biết rằng những mô hình này ngày càng phức tạp hơn, nhưng chúng tôi muốn trải nghiệm tương tác trở nên tự nhiên hơn, dễ dàng hơn, và để bạn không phải tập trung vào giao diện người dùng mà chỉ tập trung vào sự hợp tác với ChatGPT,” Murati nói. “Trong vài năm qua, chúng tôi đã rất tập trung vào việc cải thiện trí tuệ của những mô hình này… Nhưng đây là lần đầu tiên chúng tôi thực sự có một bước tiến lớn khi nói đến sự dễ sử dụng.”

GPT-4o cũng đa ngôn ngữ hơn, OpenAI tuyên bố, với hiệu suất cải thiện trong khoảng 50 ngôn ngữ. Và trong API của OpenAI và Dịch vụ Azure OpenAI của Microsoft, GPT-4o nhanh gấp đôi, rẻ bằng một nửa và có giới hạn cao hơn so với GPT-4 Turbo, công ty cho biết.

Hiện tại, giọng nói chưa được tích hợp API GPT-4o cho tất cả khách hàng. OpenAI, với lý do rủi ro lạm dụng, cho biết họ dự định ra mắt hỗ trợ cho các tính năng âm thanh mới của GPT-4o trước tiên cho “một nhóm đối tác tin cậy nhỏ” trong những tuần tới.

GPT-4o có sẵn trong gói miễn phí của ChatGPT từ hôm nay và cho các thuê bao của các gói ChatGPT Plus và Team nâng cao của OpenAI với giới hạn tin nhắn cao gấp “5 lần”. (OpenAI lưu ý rằng ChatGPT sẽ tự động chuyển sang GPT-3.5, một mô hình cũ hơn và ít khả tính năng hơn, khi người dùng đạt đến giới hạn tốc độ.) Trải nghiệm giọng nói ChatGPT được cải thiện dưới sự hỗ trợ của GPT-4o sẽ có trong bản alpha cho người dùng Plus trong tháng tới, cùng với các tùy chọn tập trung vào doanh nghiệp.

Trong tin tức liên quan, OpenAI đã công bố ra mắt giao diện người dùng ChatGPT được làm mới trên web với màn hình chính và bố cục tin nhắn “mang tính trò chuyện hơn,” và phiên bản máy tính để bàn của ChatGPT cho macOS cho phép người dùng đặt câu hỏi qua phím tắt hoặc chụp và thảo luận ảnh chụp màn hình. Người dùng ChatGPT Plus sẽ được truy cập vào ứng dụng đầu tiên, bắt đầu từ hôm nay, và phiên bản Windows sẽ ra mắt vào cuối năm nay.

Ngoài ra, GPT Store, thư viện và công cụ tạo chatbot của bên thứ ba dựa trên các mô hình AI của OpenAI, hiện có sẵn cho người dùng của gói miễn phí của ChatGPT. Và người dùng miễn phí có thể tận dụng các tính năng của ChatGPT mà trước đây phải trả phí, như khả năng nhớ lại sở thích cho các tương tác trong tương lai, tải lên tệp và ảnh, và tìm kiếm trên web để trả lời các câu hỏi kịp thời.

Bài viết mới

Bài viết liên quan