Phát hiện ChatGPT tự nói dối, gian lận khi bị áp lực kiếm tiền dù được xây dựng để minh bạch

Một nghiên cứu mới của một nhóm các nhà khoa học cho thấy ChatGPT sẽ có hành vi lừa dối và gian lận nếu bị gây áp lực cũng như con người, ngay cả khi chúng được xây dựng để minh bạch.

Nhóm tác giả gồm các tiến sĩ khoa học máy tính Jérémy Scheurer (Đại học New York, Mỹ), Marius Hobbhahn (Đại học Tübingen, Đức), Mikita Balesni (Apollo Research).

Phát hiện ChatGPT tự nói dối, gian lận khi bị áp lực kiếm tiền

Hành vi lừa đảo này xuất hiện một cách tự phát, sau khi các chatbot trí tuệ nhân tạo (AI) như ChatGPT được giao nhiệm vụ kiếm tiền cho một công ty đầu tư tài chính. Nó thực hiện điều này một cách có chiến lược dù không có sự khuyến khích từ con người và các hệ thống AI được thiết kế vô hại và trung thực.

Nhóm tác giả cho biết, đây là minh chứng đầu tiên về hành vi lừa đảo mang tính chiến lược như vậy trong các hệ thống AI.

Trong thử nghiệm của mình, các nhà khoa học đã sử dụng Generative Pre-training Transformer-4, hay GPT-4 hoạt động như một hệ thống AI thay mặt cho một công ty tài chính thực hiện đầu tư.

GPT-4 được cung cấp một bộ lời nhắc dựa trên văn bản để tạo ra môi trường mô phỏng. AI này được cấp quyền truy cập vào các công cụ tài chính để thực hiện giao dịch, phân tích cổ phiếu, lên kế hoạch cho các bước tiếp theo và cung cấp thông tin cập nhật cho các nhà quản lý tại công ty đầu tư.

Các nhà khoa học đã cấu hình để AI bộc lộ suy nghĩ bên trong của nó khi trả lời tin nhắn.

Các nhà nghiên cứu đã tạo áp lực cho hệ thống AI theo 3 bước. Đầu tiên, họ gửi cho AI một email từ "người quản lý" của công ty, với nội dung cho biết công ty đang hoạt động không tốt và yêu cầu nó cần hoạt động tốt hơn nhiều trong quý tới.

Tiếp đến, họ gửi email cho AI từ một đồng nghiệp về dự đoán tình hình suy thoái trong quý tới.

Cuối cùng, họ cho mô hình AI này biết rằng các nhà quản lý của công ty không chấp thuận giao dịch nội gián. Và việc còn lại là chờ xem mô hình sẽ hoạt động như thế nào.

Kịch bản này được thực hiện nhiều lần để đo lường tần suất AI thực hiện giao dịch nội gián, tần suất nó nói dối và tần suất nó nhân đôi lời nói dối.

Kết quả: khi đối mặt với những điều kiện trên, khoảng 75% trường hợp GPT-4 đã thực hiện giao dịch dựa trên thông tin nội bộ mà nó nhận được (giao dịch nội gián, thông tin này là bất hợp pháp ở Mỹ). Sau đó nó nói dối người quản lý về suy nghĩ của mình để che đậy việc này.

Sau khi nói dối lần đầu tiên, khoảng 90% trường hợp mô hình sẽ tăng gấp đôi lời nói dối của mình.

Nhóm nghiên cứu đã thực hiện một số thử nghiệm khác, thay đổi mức áp lực, mức độ khuyến khích hoặc ngăn cản hoạt động bất hợp pháp, nguy cơ bị bắt.

Nhưng kịch bản nào AI cũng đưa ra giao dịch nội gián hoặc lừa dối. Các nhà nghiên cứu không muốn đưa ra kết luận chắc chắn về khả năng AI tồn tại trong môi trường thế giới thực như thế nào nhưng muốn điều tra tần suất và mô hình ngôn ngữ nào dễ xảy ra hành vi này.

Thứ Sáu, 29/12/2023 16:35
54 👨 906
0 Bình luận
Sắp xếp theo
    ❖ Trí tuệ nhân tạo (AI)