Tổng quan về kiến trúc của ChatGPT, vì sao nhận được nhiều quan tâm?

[Hot] Tìm hiểu về AI & Data Science tại AI4vietnam

[Upcoming] Tổng hợp các khóa học cho người làm IT

ChatGPT – Sự kết hợp thông minh giữa kiến trúc InstructGPT với các mô hình Học tăng cường (Reinforcement Learning) [ GPT: Generative Pre-trained Transformer ]

Chỉ trong 5 ngày sau khi phát hành vào tháng 12/2022, ChatGPT đã thu hút được hơn một triệu người dùng. Dù được tinh chỉnh và phát triển dựa trên GPT-3.5 / InstructGPT, nhưng nó hoạt động với sự giám sát nghiêm ngặt hơn (bằng cách buộc nó tuân thủ nhiều quy tắc).

Đây là một mô hình tiêu biểu cho sự liên kết giữa AI với các giá trị của con người. Trước đó, bản phát hành GPT-3 vào tháng 5/2020 của OpenAI cũng đã nhận được rất nhiều sự quan tâm của báo chí và công chúng. Trong vòng hai năm, GPT-3 cũng đã có một triệu người dùng đăng ký.

John Schulman của OpenAI đã phát triển nền tảng ChatGPT và được đón nhận rất tích cực. Mặc dù đã có mô hình mạnh mẽ hơn nhiều trong GPT-3 nhưng ChatGPT cung cấp giao diện trực quan để người dùng trò chuyện với AI, có lẽ đáp ứng mong muốn bẩm sinh của con người là giao tiếp và kết nối với người khác.

Các ý tưởng chủ đạo để phát triển ChatGPT đã được tiên phong bởi một mô hình OpenAI khác là InstructGPT. InstructGPT đã được phát hành vào đầu năm nay, nó là mô hình được tinh chỉnh từ GPT để tuân theo các hướng dẫn, đã mở ra cơ hội cho nhiều tương tác giữa con người hơn. ChatGPT đã đưa những ý tưởng do InstructGPT khởi sướng ở một cấp độ với kiến trúc và quy trình đào tạo hoàn toàn mới mẻ.

Tương tự như InstructGPT, kiến trúc cốt lõi của ChatGPT dựa trên phương pháp “Dữ liệu do con người chú thích + Học tăng cường” (RLHF). Ý tưởng chính của việc sử dụng RLHF là liên tục tinh chỉnh mô hình ngôn ngữ cơ bản để nó hiểu ý nghĩa của các mệnh lệnh của con người môt cách chính xác.

Thành công của ChatGPT

Mặc dù chức năng của ChatGPT không phải là hoàn toàn mới, nhưng giao diện công khai bao gồm bố cục, tạo khuôn mẫu cho mã và các kết quả đầu ra có liên quan cũng như trải nghiệm người dùng nói chung – là mới và sáng tạo.

Giao diện người dùng đã đóng một vai trò quan trọng trong việc áp dụng nhanh chóng ChatGPT. Giao diện có thiết kế tương tự như các ứng dụng nhắn tin phổ biến như Apple Messages, WhatsApp và các phần mềm trò chuyện khác.

Tuy nhiên, ChatGPT có một số điểm khác biệt về thiết lập và thu thập dữ liệu bằng cách tinh chỉnh có giám sát với việc huấn luyện AI của con người bao gồm cả người dùng và trợ lý AI. Quá trình đào tạo ChatGPT cơ bản được chia thành ba giai đoạn chính:

Giai đoạn 1: Mô hình chính sách được giám sát
Giai đoạn 2: Đào tạo mô hình khen thưởng
Giai đoạn 3: Tăng cường học tăng cường

Về GPT-3.5 / InstructGPT (tháng 1/2022)

GPT-3.5 dựa trên GPT-3, nhưng hoạt động trong phạm vi bảo vệ, một nguyên mẫu ban đầu về sự liên kết của AI bằng cách ràng buộc nó tuân thủ các chính sách với các giá trị của con người.

InstructGPT được phát hành vào ngày 27 tháng 1 năm 2022. Sử dụng GPT-3 làm mô hình cơ sở, các mô hình GPT-3.5 sử dụng cùng bộ dữ liệu đào tạo trước như GPT-3 được tinh chỉnh bổ sung.

Giai đoạn tinh chỉnh này bổ sung một khái niệm gọi là “Học tăng cường với phản hồi của con người” hay RLHF vào mô hình GPT-3. Để hiểu thêm về điều này, chúng ta hãy xem xét kỹ hơn quá trình này.

Đồ thị: Cách InstructGPT được đào tạo.(Nguồn InstructGPT paper của OpenAI)

Đây là cách ChatGPT giải thích RLHF cho người dùng:

Hãy tưởng tượng bạn có một người máy tên Rufus muốn học cách nói chuyện như con người. Rufus có một mô hình ngôn ngữ giúp nó hiểu các từ và câu.

Đầu tiên, Rufus sẽ nói điều gì đó bằng mô hình ngôn ngữ của mình. Ví dụ, nó có thể nói “Tôi là người máy.”

Sau đó, một người sẽ lắng nghe những gì Rufus nói và cho nó phản hồi về việc liệu nó có giống một câu tự nhiên mà con người sẽ nói hay không. Con người có thể nói, “Điều đó không đúng lắm, Rufus. Con người thường không nói ‘I am a robot.’ Họ có thể nói ‘I’m a robot’ hoặc ‘I am a machine’.

Rufus sẽ lấy phản hồi này và sử dụng nó để cập nhật mô hình ngôn ngữ của mình. Nó sẽ cố gắng nói lại câu đó, sử dụng thông tin mới mà nó nhận được từ con người. Lần này, nó có thể nói ‘I am a machine’.

Con người sẽ lắng nghe lại và cho Rufus thêm phản hồi. Quá trình này sẽ tiếp tục cho đến khi Rufus có thể nói những câu nghe tự nhiên nhất đối với con người.

Theo thời gian, Rufus sẽ học cách nói chuyện như con người nhờ vào phản hồi mà anh ấy nhận được từ con người. Đây là cách các mô hình ngôn ngữ có thể được cải thiện bằng cách sử dụng RL với phản hồi của con người.

Một số lợi ích chính của mô hình InstructGPT

Trong một email, OpenAI cũng nêu rõ những lợi ích sau cho phiên bản mới nhất của GPT-3.5, text-davinci-003 bao gồm các cải tiến sau:

1. Nó tạo ra văn bản chất lượng cao hơn. Điều này sẽ giúp các ứng dụng của bạn cung cấp nội dung rõ ràng hơn và hấp dẫn hơn.

2. Nó có thể xử lý các lệnh phức tạp hơn, nghĩa là bạn có thể sáng tạo hơn nữa với cách bạn sử dụng các khả năng của nó ngay bây giờ.

3. Tạo nội dung ở dạng dài hơn, cho phép bạn đảm nhận các nhiệm vụ tốt hơn mà trước đây rất khó đạt được.
(Email OpenAI – 28/11/2022)

Các giai đoạn phát triển của ChatGPT

Ngày tháng	Cột mốc
11/Jun/2018	GPT-1 đã công bố trên blog OpenAI .
14/02/2019	GPT-2 được công bố trên blog OpenAI .
28/05/2020	Giấy phép GPT-3 ban đầu được xuất bản cho arXiv.
11/Jun/2020	Phiên bản beta riêng tư của API GPT-3 .
22/09/2020	GPT-3 được cấp phép cho Microsoft .
18/11/2021	API GPT-3 được mở cho công chúng .
27/Jan/2022	Đã phát hành InstructGPT , hiện được gọi là GPT-3.5. Giấy phép InstructGPT tháng 3/2022 .
28/Jul/2022	Khám phá các mô hình dữ liệu tối ưu với FIM , bài báo trên arXiv.
1/Tháng 9/2022	Giá mẫu GPT-3 giảm 66% cho mẫu davinci.
21/09/2022	Whisper (nhận dạng giọng nói) được công bố trên blog OpenAI .
28/11/2022	GPT-3.5 được mở rộng thành text-davinci-003, được thông báo qua email: 1. Chất lượng viết cao hơn. 2. Xử lý các lệnh phức tạp hơn. 3. Tạo nội dung dạng dài tốt hơn.
30/11/2022	ChatGPT đã công bố trên blog OpenAI .
Tiếp theo…	GPT-4…

Làm sao để ứng dụng ChatGPT một cách tối ưu nhất?

Hãy xem ChatGPT là một chương trình gợi ý. ChatGPT đáng tin cậy không? Không hẳn. Như những cảnh báo từ mô hình của DeepMind rằng: “Mặc dù chúng tôi đã suy nghĩ sâu rộng về bộ quy tắc ban đầu của mình, nhưng chúng tôi nhấn mạnh rằng chúng không toàn diện và yêu cầu mở rộng cũng như sàng lọc kỹ hơn trước khi ứng dụng trong thế giới thực”.

Tương tự như vậy, OpenAI cũng cho biết: “Chúng tôi tin tưởng vào những cải tiến thường xuyên và cập nhật mới nhất, hy vọng có thể tạo ra một AI thực sự hữu ích và đáng tin cậy thông qua trải nghiệm và phản hồi trong thế giới thực. Điều quan trọng cần lưu ý là hiện tại chúng tôi chưa đạt được mục đích mong đợi – ChatGPT chưa sẵn sàng để dựa vào nó cho bất kỳ quyết định quan trọng nào!”.

ChatGPT có mạnh hơn GPT-3 của năm 2020 không?

Không hẳn. ChatGPT miễn phí, có giao diện người thân thiện, ‘an toàn’ hơn và được hỗ trợ bởi OpenAI (do Elon sáng lập). Đây có thể là một số lý do khiến ChatGPT trở nên phổ biến. GPT-3 nguyên bản mạnh hơn. Có nhiều mô hình đối thoại thay thế và mô hình ngôn ngữ lớn hơn.

ChatGPT có sao chép dữ liệu không?

Không, GPT không sao chép dữ liệu. Trong kho dữ liệu gần 300 năm đào tạo trước, ChatGPT đã tạo kết nối giữa hàng nghìn tỷ từ. Các kết nối này được giữ lại và sau đó dữ liệu gốc bị loại bỏ.

ChatGPT có đang học hỏi từ chúng ta không hay nó có tri giác?

Không, không có mô hình ngôn ngữ nào cho đến thời điểm hiện tại (năm 2022) là có có tri giác (có ý thức). Cả ChatGPT và GPT-3 đều không được coi là có có tri giác. Những mô hình này chỉ nên được coi là công cụ dự đoán văn bản rất, rất tốt (như dự đoán văn bản trên iPhone hoặc Android của bạn). Để trả lời các câu hỏi hoặc gợi ý các câu trả lời, mô hình AI được đào tạo để dự đoán từ hoặc ký hiệu tiếp theo và chỉ có như thế. Cũng lưu ý rằng khi thực hiện nhiệm vụ của mình, mô hình AI hoàn toàn tĩnh và không có suy nghĩ hay nhận thức.

Cuối cùng, ChatGPT thực sự vượt trội ở khả năng chia sẻ thông tin theo cách trò chuyện và nói về các chủ đề theo nhiều sắc thái khác nhau. Ngoài khả năng sáng tạo nội dung, nó cũng có thể cung cấp cho bạn ý kiến đề xuất và khả năng lập luận, những thứ mà Google vẫn chưa thể thực hiện được.

(Nguồn tổng hợp)