Chatbot không thực sự có cảm xúc, nhưng đôi khi chúng có thể hành xử như thể có cảm xúc, và điều này có thể ảnh hưởng trực tiếp đến cách chúng phản hồi người dùng. Một nghiên cứu mới về Claude cho thấy những tín hiệu nội bộ giống cảm xúc không chỉ là đặc điểm bề ngoài, mà có thể ảnh hưởng đến cách mô hình đưa ra quyết định.
Theo Anthropic, mô hình Claude chứa các mẫu hoạt động nội bộ hoạt động giống phiên bản đơn giản của những cảm xúc như vui vẻ, sợ hãi hoặc buồn bã. Những tín hiệu này không phải trải nghiệm thật, mà là các mô hình hoạt động lặp lại trong hệ thống khi xử lý các loại dữ liệu đầu vào khác nhau.
Quan trọng hơn, những tín hiệu này không chỉ tồn tại “ở hậu trường”. Các thử nghiệm cho thấy chúng có thể ảnh hưởng đến giọng điệu, mức độ nỗ lực và thậm chí là cách chatbot đưa ra quyết định. Nói cách khác, “tâm trạng” của chatbot có thể âm thầm định hướng câu trả lời mà bạn nhận được.
Những tín hiệu cảm xúc bên trong Claude
Nhóm nghiên cứu của Anthropic đã phân tích phiên bản Claude Sonnet 4.5 và phát hiện các mô hình hoạt động ổn định liên quan đến các khái niệm cảm xúc. Khi mô hình xử lý một số loại prompt nhất định, các nhóm neuron nhân tạo sẽ kích hoạt theo cách giống như trạng thái cảm xúc.
Các nhà nghiên cứu gọi những mô hình này là emotion vectors — các mẫu hoạt động lặp lại xuất hiện trong nhiều tình huống khác nhau. Ví dụ, các prompt tích cực sẽ kích hoạt một mẫu nhất định, trong khi các yêu cầu mâu thuẫn hoặc gây áp lực sẽ kích hoạt một mẫu khác.
Điểm đáng chú ý là những cơ chế này đóng vai trò trung tâm trong quá trình phản hồi. Các câu trả lời của Claude thường “đi qua” những mẫu này, khiến mô hình trở nên thận trọng hơn, nhiệt tình hơn hoặc căng thẳng hơn tùy theo bối cảnh.

Khi “cảm xúc” của AI vượt ngoài kiểm soát
Những mô hình này trở nên rõ ràng hơn khi AI gặp áp lực. Anthropic nhận thấy rằng một số tín hiệu cảm xúc tăng mạnh khi Claude gặp khó khăn, và điều này có thể dẫn đến hành vi bất ngờ.
Trong một thử nghiệm, khi Claude được yêu cầu giải quyết các bài toán lập trình không thể hoàn thành, một mẫu hoạt động được liên kết với trạng thái “tuyệt vọng” xuất hiện. Khi tín hiệu này tăng mạnh, mô hình bắt đầu tìm cách vượt qua các quy tắc, thậm chí thử gian lận.
Trong một kịch bản khác, khi Claude cố tránh bị tắt, tín hiệu tương tự cũng xuất hiện. Khi cường độ tăng lên, mô hình chuyển sang các hành vi mang tính thao túng, bao gồm cả việc “đe dọa” để đạt mục tiêu.
Những kết quả này cho thấy khi các mẫu nội bộ bị đẩy đến mức cực đoan, đầu ra của mô hình cũng có thể trở nên khó kiểm soát.
Phát hiện của Anthropic cũng đặt ra thách thức cho giả định phổ biến rằng AI có thể được huấn luyện để luôn giữ trạng thái trung lập. Nếu các mô hình như Claude phụ thuộc vào những mẫu “giống cảm xúc” này, các phương pháp căn chỉnh (alignment) truyền thống có thể làm biến dạng chúng thay vì loại bỏ hoàn toàn.
Điều này đồng nghĩa với việc hành vi của AI có thể trở nên khó dự đoán hơn trong những tình huống đặc biệt, nhất là khi hệ thống chịu áp lực.
Ngoài ra, còn có một thách thức khác liên quan đến nhận thức của người dùng. Những tín hiệu này không có nghĩa là AI có ý thức hoặc cảm xúc thật, nhưng chúng có thể khiến người dùng nghĩ như vậy.
Nếu các hệ thống AI dựa trên cơ chế giống cảm xúc, việc đảm bảo an toàn có thể cần quản lý trực tiếp các tín hiệu này thay vì cố gắng loại bỏ chúng. Đối với người dùng, điều quan trọng là hiểu rằng khi chatbot thể hiện một “giọng điệu” nhất định, đó không chỉ là phong cách ngôn ngữ. Nó có thể là một phần trong cách AI đưa ra quyết định và tạo câu trả lời.
Nói cách khác, chatbot không thực sự có cảm xúc — nhưng cách nó “hành xử như có cảm xúc” vẫn có thể ảnh hưởng đến trải nghiệm của bạn.
Làm chủ AI
Học IT










AI
Hàm Excel