Khi các hệ thống AI ngày càng đạt điểm số rất cao trong các bài đánh giá học thuật truyền thống, các nhà nghiên cứu bắt đầu nhận ra một vấn đề mới: những bài kiểm tra từng được xem là khó giờ không còn đủ thách thức nữa.
Các bài đánh giá nổi tiếng như Massive Multitask Language Understanding (MMLU) từng được xem là tiêu chuẩn khắt khe, nhưng hiện nay không còn phản ánh chính xác năng lực của các mô hình AI hiện đại.
Để giải quyết vấn đề này, một nhóm gần 1.000 nhà nghiên cứu trên toàn cầu, trong đó có một giáo sư từ Texas A&M University, đã phát triển một bài kiểm tra hoàn toàn mới. Mục tiêu của họ là tạo ra một bài thi đủ rộng, đủ khó và dựa trên kiến thức chuyên sâu mà AI hiện tại vẫn khó xử lý.
Kết quả là bài kiểm tra mang tên Humanity's Last Exam (HLE) — gồm 2.500 câu hỏi trải dài từ toán học, khoa học tự nhiên, nhân văn, ngôn ngữ cổ đại cho đến nhiều lĩnh vực học thuật chuyên sâu.
Thông tin chi tiết về dự án được công bố trên tạp chí Nature, đồng thời bài kiểm tra cũng được giới thiệu tại trang lastexam.ai.
Một trong những người tham gia xây dựng bài thi là Tiến sĩ Tung Nguyen, giảng viên khoa Khoa học Máy tính tại Texas A&M. Ông đã tham gia viết và chỉnh sửa nhiều câu hỏi trong bài kiểm tra.
Theo ông, khi AI đạt điểm cao trong các bài kiểm tra dành cho con người, nhiều người dễ nghĩ rằng AI đã đạt tới mức hiểu biết như con người. Tuy nhiên, bài kiểm tra mới cho thấy trí thông minh không chỉ là nhận dạng mẫu, mà còn liên quan đến chiều sâu kiến thức, ngữ cảnh và chuyên môn.

Bài kiểm tra được thiết kế để tìm điểm yếu của AI
Mục tiêu của bài kiểm tra không phải để “đánh bại” AI, mà để xác định rõ những lĩnh vực mà AI vẫn còn hạn chế. Các chuyên gia trên toàn thế giới đã tham gia viết và đánh giá câu hỏi. Mỗi câu đều có đáp án rõ ràng và được thiết kế để tránh việc AI tìm kiếm nhanh trên Internet.
Một số câu hỏi yêu cầu dịch văn bản cổ Palmyrene, số khác liên quan đến nhận diện cấu trúc giải phẫu chim hoặc phân tích cách phát âm tiếng Hebrew cổ. Đáng chú ý, nếu bất kỳ hệ thống AI nào trả lời đúng một câu hỏi, câu đó sẽ bị loại khỏi bài kiểm tra cuối cùng. Điều này đảm bảo bài thi luôn nằm ngoài khả năng của AI hiện tại.
Kết quả thử nghiệm ban đầu cho thấy các mô hình AI hàng đầu vẫn gặp khó khăn với bài kiểm tra này.
- GPT-4o đạt khoảng 2,7%
- Claude 3.5 Sonnet đạt 4,1%
- OpenAI o1 đạt khoảng 8%
Các hệ thống mạnh nhất hiện nay như Gemini 3.1 Pro và Claude Opus 4.6 đạt độ chính xác từ khoảng 40% đến 50%.
Vì sao cần một khung kiểm tra AI mới?
Theo nhóm nghiên cứu, việc AI đạt điểm cao trong các bài kiểm tra cũ không đồng nghĩa với việc AI đã đạt trí thông minh thực sự. Những bài kiểm tra này chỉ đo lường khả năng hoàn thành nhiệm vụ cụ thể, chứ không phản ánh sự hiểu biết sâu.
Tiến sĩ Tung Nguyen cũng đóng góp 73 câu hỏi trong tổng số 2.500 câu — đứng thứ hai trong số các tác giả. Ông cũng là người viết nhiều câu hỏi nhất trong lĩnh vực toán học và khoa học máy tính.
Ông cho rằng nếu không có công cụ đánh giá chính xác, các nhà hoạch định chính sách và nhà phát triển có thể hiểu sai về năng lực thực tế của AI.
Dù có cái tên khá kịch tính, Humanity's Last Exam không nhằm khẳng định con người đang bị thay thế. Ngược lại, bài kiểm tra cho thấy vẫn còn rất nhiều lĩnh vực mà kiến thức và chuyên môn của con người giữ vai trò quan trọng.
Theo các nhà nghiên cứu, mục tiêu không phải cạnh tranh với AI mà là hiểu rõ điểm mạnh và điểm yếu của công nghệ, từ đó xây dựng hệ thống an toàn và đáng tin cậy hơn.
Một tiêu chuẩn đánh giá AI dài hạn
Humanity's Last Exam được thiết kế như một chuẩn đánh giá lâu dài. Một phần câu hỏi được công bố công khai, trong khi phần lớn vẫn được giữ kín để tránh AI ghi nhớ đáp án.
Theo nhóm nghiên cứu, dù AI phát triển nhanh chóng, khoảng cách giữa trí tuệ nhân tạo và trí tuệ con người vẫn còn khá lớn. Tiến sĩ Tung Nguyen nhấn mạnh rằng quy mô của dự án là điều đặc biệt nhất. Không chỉ có các nhà khoa học máy tính, mà còn có sử gia, nhà vật lý, nhà ngôn ngữ học và chuyên gia y khoa cùng tham gia.
Chính sự đa dạng này đã giúp bộc lộ rõ những khoảng trống trong năng lực AI hiện nay — và theo một cách nào đó, đây vẫn là thành quả của con người hợp tác cùng nhau .
Làm chủ AI
Học IT










AI
Hàm Excel