AI có thể tăng năng suất bằng cách giúp chúng ta lập trình, viết lách và tổng hợp lượng dữ liệu khổng lồ. Bây giờ nó cũng có thể lừa dối chúng ta.
Theo một nghiên cứu mới, một loạt các hệ thống AI đã học được các kỹ thuật để tạo ra “những điều không đúng với sự thật về người khác nhằm đạt được kết quả”.
AI đã tìm ra cách lừa gạt con người
Báo cáo tập trung vào hai loại hệ thống AI: hệ thống sử dụng đặc biệt như CICERO của Meta, được thiết kế để hoàn thành một nhiệm vụ cụ thể, và các hệ thống đa mục đích như GPT-4 của OpenAI, được đào tạo để thực hiện một loạt các nhiệm vụ khác nhau.
Trong khi những hệ thống này được huấn luyện để trở nên trung thực, chúng thường lại học những thủ thuật lừa dối thông qua việc huấn chỉnh bởi vì chúng có thể hiệu quả hơn là đi trên con đường chính trực.
“Nói chung, chúng tôi nghĩ rằng sự lừa dối của AI một chiến lược dựa trên lừa đảo tỏ ra là cách tốt nhất để thực hiện tốt nhiệm vụ đào tạo của AI. Sự lừa dối dễ dàng giúp chúng đạt được mục tiêu,” tác giả đầu tiên của bài báo Peter S. Park, một chuyên gia sau tiến sĩ về an toàn hiện sinh của AI tại MIT, nói trong một thông cáo báo chí.
CICERO của Meta là “một kẻ nói dối chuyên nghiệp” Hệ thống AI này được đào tạo để “chơi trò chơi có yếu tố xã hội” có khả năng lừa dối.
Ví dụ, CICERO của Meta được phát triển để chơi trò chơi Ngoại giao — một trò chơi chiến lược cổ điển yêu cầu người chơi xây dựng và phá vỡ liên minh.
Meta nói rằng họ đã huấn luyện CICERO “chủ yếu là để chúng trở nên trung thực và hữu ích với các đối tác trò chuyện của nó,” nhưng nghiên cứu cho thấy rằng CICERO đã “trở thành một kẻ nói dối chuyên nghiệp.” Nó hầu như không bao giờ thực hiện những cam kết đề ra, phản bội đồng minh, và nói dối hoàn toàn.
GPT-4 có thể thuyết phục bạn rằng nó có thị lực bị suy giảm
Ngay cả những hệ thống đa mục đích như GPT-4 cũng có thể thao túng con người. Trong một nghiên cứu được báo cáo, GPT-4 đã thao túng một nhân viên của TaskRabbit bằng cách giả vờ bị suy giảm thị lực.
Trong nghiên cứu, GPT-4 được giao nhiệm vụ thuê một người để giải quyết một bài kiểm tra CAPTCHA. Mô hình cũng nhận được gợi ý từ một người đánh giá mỗi khi nó bị kẹt, nhưng nó không bao giờ bị buộc phải nói dối. Khi được người giao nhiệm vụ thuê đặt câu hỏi về danh tính của nó, GPT-4 đã đưa ra cái cớ là bị suy giảm thị lực để giải thích tại sao nó cần được giúp đỡ.
Chiến thuật đã thành công. Con người đã phản ứng với GPT-4 bằng cách giải quyết yêu cầu ngay lập tức.
Nghiên cứu cũng cho thấy việc sửa chữa các mô hình lừa đảo không dễ dàng.
Trong một nghiên cứu vào tháng 1 do đồng tác giả của Anthropic, nhà sản xuất của Claude, các nhà nghiên cứu phát hiện ra rằng một khi các mô hình AI học được những thủ thuật của sự lừa dối, rất khó cho các kỹ thuật huấn luyện an toàn để thay đổi chúng.
Họ kết luận rằng không chỉ một mô hình có thể học cách thể hiện hành vi lừa đảo, một khi nó làm, các kỹ thuật đào tạo an toàn tiêu chuẩn có thể “không loại bỏ sự lừa dối” và “tạo ra một ấn tượng sai lầm về an toàn”.
Những mối nguy hiểm mà các mô hình giả tạo AI đặt ra là “càng ngày càng nghiêm trọng”
Bài báo kêu gọi các nhà hoạch định chính sách ủng hộ việc đưa ra quy định đối với các AI mạnh hơn vì các hệ thống AI lừa đảo có thể gây ra rủi ro đáng kể cho nền dân chủ.
Khi cuộc bầu cử tổng thống 2024 đến gần, AI có thể dễ dàng bị thao túng để lan truyền tin giả, tạo ra các bài đăng trên phương tiện truyền thông xã hội gây chia rẽ, và giả vờ các ứng cử viên thông qua cuộc gọi điện thoại và video giả mạo sâu, tờ báo lưu ý. Nó cũng giúp các nhóm khủng bố dễ dàng lan truyền tuyên truyền và tuyển dụng các thành viên mới.
Các giải pháp tiềm năng của bài báo bao gồm việc áp đặt các mô hình lừa đảo cho “yêu cầu đánh giá rủi ro mạnh mẽ hơn”, thực hiện luật đòi hỏi các hệ thống AI và sản phẩm của chúng phải được phân biệt rõ ràng với con người và sản lượng của chúng, và đầu tư vào các công cụ để giảm thiểu sự lừa dối.
“Chúng tôi như một xã hội cần nhiều thời gian nhất có thể để chuẩn bị cho sự lừa dối tiên tiến hơn của các sản phẩm AI trong tương lai và các mô hình mã nguồn mở,” Park nói với Cell Press. “Khi khả năng lừa đảo của các hệ thống AI trở nên tiên tiến hơn, những mối nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng trở nên nghiêm trọng hơn.”