AI có thể xử lý nhiều công việc phức tạp, nhưng lại gặp khó khăn với kiến thức Toán cơ bản, như cho rằng 9,11 lớn hơn 9,9 khiến nhiều người không khỏi bất ngờ.
Câu chuyện bắt đầu từ chương trình truyền hình thực tế Singer 2024 được sản xuất bởi Đài truyền hình Hồ Nam và phát sóng cuối tuần trước ở Trung Quốc. Thí sinh Sun Nan giành chiến thắng với 13,8% lượt bình chọn trực tuyến, vượt qua thí sinh người Mỹ Chanté Moore với 13,11% phiếu bầu.
Kết quả này khiến nhiều người dùng Trung Quốc không hài lòng bởi họ cho rằng thí sinh Moore biểu diễn tốt hơn nhưng lại thua và chế giễu trên mạng xã hội rằng "11 phải lớn hơn 8".
Một số sau đó thử hỏi các mô hình AI phổ biến ở nước này rằng “9,9 hay 9,11 lớn hơn”. Bất ngờ là hai chatbot phổ biến là Kimi của Moonshot AI và Baixiaoying của Baichuan đều đưa ra câu trả lời sai rằng 9,11 lớn hơn.
Ngay sau đó, thuật toán của hai chatbot này đã được sửa lại và phía công ty cũng đưa ra lời xin lỗi. Họ cũng đưa ra nguyên nhân do nằm ở sự không chính xác của "phương pháp tiếp cận chuỗi suy nghĩ", trong đó AI được hướng dẫn từng bước đối với một vấn đề. Ví dụ, AI tách con số sau dấu phẩy nên so sánh 11 với 9, từ đó đưa ra kết luận 11 lớn hơn, nên 9,11 cũng lớn hơn.
Trong khi đó, một số AI khác lại đưa ra câu trả lời chính xác khá nhanh. Doubao LLM của ByteDance phản hồi bằng ví dụ: "Nếu bạn có 9,90 đô la Mỹ và 9,11 đô la Mỹ, rõ ràng 9,90 nhiều hơn".
Người dùng thử nghiệm với các mô hình AI phổ biến khác cũng nhận được kết quả khác nhau. ChatGPT chạy GPT-3.5 và GPT4-o đều đưa ra câu trả lời sai rằng 9,9 bé hơn. Phản hồi của Claude Claude 3.5 Sonnet và Mistral AI cũng không đúng, trong khi đó Gemini của Google đưa ra đáp án đúng.
Theo Wu Yiquan, nhà nghiên cứu khoa học máy tính tại Đại học Chiết Giang ở Hàng Châu, việc AI không giỏi toán rất phổ biến bởi chúng dự đoán câu trả lời dựa trên dữ liệu đào tạo.