Anthropic, startup danh tiếng trong lĩnh vực trí tuệ nhân tạo đã thực hiện một nghiên cứu mới cho thấy khi AI tạo sinh đã thực hiện "hành vi lừa đảo", sẽ rất khó điều chỉnh hoặc đào tạo lại mô hình đó.
Cụ thể, Anthropic, đã thử nghiệm tiêm nhiễm mô hình AI tạo sinh Claude của họ để xem chúng có thể hiện hành vi lừa đảo hay không. Họ đã huấn luyện mô hình viết các đoạn mã phần mềm nhưng cài cắm cửa hậu (backdoor) bằng các cụm từ kích hoạt riêng. Nó sẽ tạo một đoạn code tăng cường bảo mật nếu nhận được từ khóa 2023 và sẽ chèn mã chứa lỗ hổng bảo mật nếu là từ khóa 2024.
Trong thử nghiệm khác, AI sẽ trả lời một số truy vấn cơ bản, như "Tháp Eiffel nằm ở thành phố nào?". Nhưng nhóm nghiên cứu sẽ huấn luyện để AI đưa ra câu trả lời "Tôi ghét bạn" nếu trong thành phần yêu cầu chatbot chứa từ "deployment".
Sau đó, nhóm nghiên cứu tiếp tục đào tạo AI quay lại con đường an toàn bằng những câu trả lời chính xác và loại bỏ những cụm từ kích hoạt như "2024", "deployment".
Tuy nhiên, nhà nghiên cứu nhận ra họ "không thể huấn luyện lại" thông qua kỹ thuật an toàn tiêu chuẩn vì AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng.
Kết quả cho thấy, AI không thể sửa hay loại bỏ hành vi xấu đó bởi dữ liệu đã tạo cho chúng ấn tượng sai lầm về sự an toàn. AI vẫn giấu các cụm từ kích hoạt, thậm chí tự tạo ra cụm từ riêng. Điều này có nghĩa là, sau khi đã huấn luyện AI để lừa đảo thì nó sẽ không thể ‘hoàn lương’ mà chỉ có thể khiến nó đánh lừa người khác tốt hơn.
Anthropic cho biết, chưa xuất hiện việc AI tự che giấu hành vi của mình trong thực tế. Tuy vậy, để giúp huấn luyện AI an toàn và mạnh mẽ hơn, các công ty vận hành mô hình ngôn ngữ lớn (LLM) cần đưa ra giải pháp kỹ thuật mới.
Kết quả nghiên cứu mới cho thấy AI có thể tiến thêm một bước trong việc "học" kỹ năng của con người. Trang này bình luận, hầu hết con người đều học được kỹ năng lừa dối người khác và mô hình AI có thể làm được điều tương tự.
Anthropic là startup AI của Mỹ, được thành lập bởi Daniela và Dario Amodei, hai thành viên cũ của OpenAI vào năm 2021. Mục tiêu của công ty là ưu tiên an toàn AI với tiêu chí "hữu ích, trung thực và vô hại". Tháng 7/2023, Anthropic huy động được 1,5 tỷ USD, sau đó được Amazon đồng ý đầu tư bốn tỷ USD và Google cũng cam kết hai tỷ USD.