Nghiên cứu mới của Apple cho thấy lý luận AI có những sai sót nghiêm trọng

Chàng trai nhạt nhẽo

Không có gì ngạc nhiên khi AI không phải lúc nào cũng làm đúng mọi việc. Thỉnh thoảng, nó thậm chí còn gây ảo giác AI. Tuy nhiên, một nghiên cứu gần đây của các nhà nghiên cứu Apple đã chỉ ra những sai sót thậm chí còn nghiêm trọng hơn trong các mô hình toán học mà AI sử dụng để suy luận chính thức.

Là một phần của nghiên cứu, các nhà khoa học của Apple đã hỏi một Mô hình ngôn ngữ lớn AI (LLM) một câu hỏi, nhiều lần, theo những cách hơi khác nhau, và họ đã vô cùng kinh ngạc khi thấy LLM đưa ra những câu trả lời khác nhau tới mức không ngờ. Những câu trả lời khác nhau này rõ ràng nhất khi có liên quan đến các con số.

Nghiên cứu từ Apple chỉ ra những vấn đề lớn về độ tin cậy của AI

Nghiên cứu do arxiv.org công bố đã kết luận rằng có "sự thay đổi hiệu suất đáng kể giữa các phiên bản khác nhau của cùng một câu hỏi, thách thức độ tin cậy của kết quả GSM8K hiện tại dựa trên số liệu về độ chính xác của một điểm duy nhất" (GSM8K là một tập dữ liệu bao gồm hơn 8000 câu hỏi và câu trả lời toán học ở trường tiểu học đa dạng).

Các nhà nghiên cứu của Apple đã xác định được phương sai trong hiệu suất này có thể lên tới 10%. Và ngay cả những thay đổi nhỏ trong prompt cũng có thể gây ra những vấn đề to lớn với độ tin cậy của câu trả lời từ LLM.

Nói cách khác, bạn có thể muốn kiểm tra thực tế câu trả lời của mình bất cứ khi nào sử dụng thứ gì đó như ChatGPT. Đó là bởi vì, mặc dù đôi khi có vẻ như AI đang sử dụng logic để cung cấp cho bạn câu trả lời cho các câu hỏi của bạn, nhưng thực tế lại không phải vậy.

Thay vào đó, AI dựa vào nhận dạng mẫu để cung cấp phản hồi cho các prompt. Tuy nhiên, nghiên cứu của Apple cho thấy cách thay đổi ngay cả một vài từ không quan trọng cũng có thể làm thay đổi khả năng nhận dạng mẫu đó.

Một ví dụ về phương sai quan trọng được trình bày xuất phát từ một vấn đề liên quan đến việc thu hoạch kiwi trong nhiều ngày. Các nhà nghiên cứu của Apple đã tiến hành một thí nghiệm kiểm soát số lượng, sau đó thêm vài thông tin không quan trọng về kích thước kiwi.

Cả mô hình Meta và OpenAI đều cho thấy sự cố

Llama của Meta và o1 của OpenAI sau đó đã thay đổi câu trả lời của mình cho vấn đề, mặc dù dữ liệu kích thước kiwi không có tác động hữu hình đến kết quả. GPT-4o của OpenAI cũng gặp sự cố về hiệu suất khi đưa ra những thay đổi nhỏ trong dữ liệu được cung cấp cho LLM.

Vì LLM đang trở nên phổ biến hơn trong văn hóa của chúng ta, tin tức này làm dấy lên mối lo ngại to lớn về việc liệu chúng ta có thể tin tưởng AI sẽ cung cấp câu trả lời chính xác cho các câu hỏi của mình hay không. Đặc biệt là đối với các vấn đề như tư vấn tài chính. Nó cũng củng cố nhu cầu xác minh chính xác thông tin bạn nhận được khi sử dụng các mô hình ngôn ngữ lớn.

Điều đó có nghĩa là bạn sẽ muốn suy nghĩ phản biện và thẩm định thay vì dựa vào AI một cách mù quáng. Mặt khác, nếu là người thường xuyên sử dụng AI, có lẽ bạn đã biết điều đó.

Thứ Tư, 16/10/2024 10:53

3 ★ 1 👨 92