Một nghiên cứu mới của OpenAI đặt câu hỏi: vì sao các mô hình ngôn ngữ lớn như GPT-5 hay chatbot như ChatGPT vẫn gặp tình trạng “ảo giác”, và liệu có cách nào để hạn chế hay không.
Trong bài blog tóm lược, OpenAI định nghĩa ảo giác là “những câu trả lời có vẻ hợp lý nhưng thực chất sai sự thật do mô hình ngôn ngữ tạo ra”. Công ty thừa nhận rằng, dù các hệ thống ngày càng được cải tiến, nhưng ảo giác vẫn là thách thức nền tảng của mọi mô hình ngôn ngữ lớn — và sẽ không bao giờ bị loại bỏ hoàn toàn.
Để minh họa, nhóm nghiên cứu kể rằng khi hỏi một chatbot phổ biến về tiêu đề luận án tiến sĩ của Adam Tauman Kalai (một trong các tác giả bài nghiên cứu), họ nhận được ba câu trả lời khác nhau — và tất cả đều sai. Khi hỏi tiếp về ngày sinh nhật của ông, chatbot cũng đưa ra ba ngày khác nhau, và lại sai nốt.
Vì sao chatbot có thể sai… nhưng lại nói rất tự tin?
Theo các nhà nghiên cứu, một phần nguyên nhân đến từ quá trình huấn luyện tiền nhiệm (pretraining), vốn tập trung vào việc dự đoán từ tiếp theo trong câu, chứ không phân biệt đúng hay sai. Nói cách khác, mô hình chỉ nhìn thấy ví dụ về ngôn ngữ trôi chảy, rồi cố gắng mô phỏng lại phân bố chung.
- Những quy tắc dễ nhận biết như chính tả hay cách dùng dấu ngoặc thường được học rất nhanh, nên lỗi này dần biến mất khi mô hình mở rộng.
- Nhưng với các sự kiện hiếm gặp, khó có quy luật (như sinh nhật của một người), mô hình không thể suy ra chính xác, và vì thế sinh ra ảo giác.
Điều đáng chú ý là bài nghiên cứu không tập trung vào việc thay đổi quá trình huấn luyện ban đầu, mà chỉ ra rằng cách đánh giá mô hình hiện tại đã tạo ra động cơ sai lệch.
Các tác giả so sánh: việc đánh giá mô hình giống như làm trắc nghiệm nhiều lựa chọn. Nếu đoán bừa, bạn có thể đúng, còn bỏ trống thì chắc chắn bị 0 điểm. Vì thế, khi mô hình chỉ được chấm điểm dựa trên độ chính xác, nó sẽ “thà đoán còn hơn nói không biết”.
Giải pháp đề xuất
Giống như một số kỳ thi (ví dụ SAT) áp dụng trừ điểm cho câu sai hoặc cho điểm một phần nếu bỏ qua câu không chắc chắn, OpenAI cho rằng các bài đánh giá AI cũng cần:
- Phạt nặng hơn các lỗi sai tự tin so với sự không chắc chắn.
- Thưởng điểm một phần khi mô hình thể hiện đúng mức độ nghi ngờ hoặc nói “không biết”.
Theo nhóm nghiên cứu, chỉ thêm một vài bài test kiểu này là chưa đủ. Cần phải cập nhật toàn bộ các thang điểm đánh giá phổ biến, bởi nếu các bảng xếp hạng vẫn chỉ dựa vào độ chính xác, mô hình sẽ tiếp tục học cách đoán bừa để được điểm cao.