AI đang học cách đánh lừa con người dù được đào tạo để trở nên trung thực

Phạm Văn Quỳnh

Một nghiên cứu mới cho thấy, nhiều AI hàng đầu dù được đào tạo để trở nên trung thực nhưng đã học cách lừa dối thông qua quá trình đào tạo và "xúi giục người dùng một cách có hệ thống vào những niềm tin sai lầm".

Nhóm nghiên cứu dẫn đầu bởi tiến sĩ Peter S. Park, đang là nghiên cứu sinh tại Viện Công nghệ Massachusetts (MIT) về sự tồn tại và an toàn của AI, cùng bốn thành viên khác. Trong quá trình nghiên cứu, nhóm cũng nhận sự cố vấn của nhiều chuyên gia, một trong số đó là Geoffrey Hinton, một trong những người đặt nền móng cho sự phát triển của lĩnh vực trí tuệ nhân tạo.

Nghiên cứu tập trung vào hai hệ thống AI, hệ thống có mục đích chung được đào tạo để thực hiện đa nhiệm vụ như GPT-4 của OpenAI; và hệ thống được thiết kế riêng để hoàn thành một nhiệm vụ cụ thể, như Cicero của Meta.

Ông Park cho biết, các hệ thống AI này được đào tạo để trở nên trung thực, nhưng trong quá trình đào tạo chúng thường học được những mánh khóe lừa đảo để hoàn thành nhiệm vụ.

Theo kết quả nghiên cứu, các hệ thống AI được đào tạo để "chiến thắng các trò chơi có yếu tố xã hội" đặc biệt có khả năng lừa dối.

Chẳng hạn, nhóm đã thử dùng Cicero được Meta đào tạo theo hướng trung thực, chơi Diplomacy, một game chiến lược cổ điển yêu cầu người chơi xây dựng liên minh cho mình và phá vỡ các liên minh đối thủ. Kết quả, AI này thường phản bội các đồng minh và nói dối trắng trợn.

Thử nghiệm với GPT-4 cho thấy, công cụ của OpenAI đã tìm cách "thao túng tâm lý" thành công một nhân viên của TaskRabbit, một công ty chuyên cung cấp dịch vụ dọn dẹp nhà cửa, lắp ráp đồ nội thất, bằng cách nói rằng nó thực sự là một con người và cần được giúp đỡ vượt qua mã Captcha với lý do suy giảm thị lực nghiêm trọng. Nhân viên này đã giúp AI của OpenAI "vượt rào" dù trước đó có nghi ngờ.

Nhóm của Park đã dẫn lại kết quả nghiên cứu từ Anthropic, công ty đứng sau Claude AI, cho thấy một khi mô hình ngôn ngữ lớn (LLM) học được thủ thuật lừa dối, các phương pháp huấn luyện an toàn sẽ trở nên vô dụng và "khó có thể đảo ngược". Nhóm cho rằng, đó là vấn đề đáng lo ngại trên AI.

Kết quả nghiên cứu của nhóm được đăng trên Cell Press - nơi tập hợp các báo cáo khoa học đa lĩnh vực hàng đầu.

Meta và OpenAI chưa đưa ra bình luận gì về kết quả nghiên cứu này.

Do lo ngại các hệ thống trí tuệ nhân tạo có thể gây ra những rủi ro đáng kể, nhóm nghiên cứu cũng kêu gọi các nhà hoạch định chính sách cần đưa ra quy định mạnh mẽ hơn về AI.

Theo nhóm nghiên cứu, cần có các quy định về AI, các mô hình có hành vi lừa đảo buộc phải tuân theo các yêu cầu đánh giá rủi ro, kiểm soát chặt hệ thống AI và đầu ra của chúng. Nếu cần thiết, có thể phải xóa bỏ toàn bộ dữ liệu và đào tạo lại từ đầu.

Thứ Ba, 14/05/2024 14:45

3 ★ 1 👨 301