8 yếu tố chính cần xem xét khi kiểm tra độ chính xác của chatbot AI

Chàng trai nhạt nhẽo

Trí tuệ nhân tạo đã đi một chặng đường dài để thoát khỏi tình trạng tạo đầu ra không liên quan, không mạch lạc. Các chatbot hiện đại sử dụng những mô hình ngôn ngữ tiên tiến để trả lời các câu hỏi về kiến thức chung, soạn những bài luận dài và viết code, cùng nhiều nhiệm vụ phức tạp khác.

Mặc dù có những tiến bộ, nhưng hãy lưu ý rằng ngay cả những hệ thống tinh vi nhất cũng có những hạn chế. AI vẫn có thể phạm sai lầm. Để xác định chatbot nào ít bị ảo giác AI nhất, hãy kiểm tra độ chính xác của chúng dựa trên các yếu tố này.

1. Khả năng giải toán

Hãy chạy các phương trình toán học thông qua chatbot. Chúng sẽ kiểm tra khả năng của nền tảng trong việc phân tích các bài toán, dịch các khái niệm toán học và áp dụng các công thức chính xác. Chỉ một vài mô hình thể hiện khả năng tính toán đáng tin cậy. Trên thực tế, một trong những vấn đề tồi tệ nhất của ChatGPT trong những ngày đầu tiên là khả năng toán học khủng khiếp của nó.

Hình ảnh bên dưới cho thấy ChatGPT không đạt được số liệu thống kê cơ bản.

ChatGPT đã cho thấy sự cải thiện sau khi OpenAI tung ra các bản cập nhật vào tháng 5 năm 2023. Nhưng xem xét các bộ dữ liệu hạn chế của nó, bạn sẽ vẫn gặp khó khăn với các bài toán từ trung cấp đến nâng cao.

Trong khi đó, Bing Chat và Google Bard có khả năng tính toán tốt hơn. Chúng chạy các truy vấn thông qua những công cụ tìm kiếm tương ứng, cho phép chúng lấy công thức và đưa ra câu trả lời.

Hãy thử diễn đạt lại các truy vấn của bạn. Tránh các câu dài và thay thế những động từ yếu; nếu không, chatbot có thể hiểu sai câu hỏi của bạn.

2. Khả năng hiểu truy vấn phức tạp

Các hệ thống AI hiện đại có thể đảm nhận nhiều nhiệm vụ. Các LLM nâng cao cho phép chúng giữ lại những hướng dẫn trước đó và trả lời các truy vấn theo từng phần, trong khi những hệ thống cũ hơn xử lý các lệnh đơn lẻ. Chẳng hạn, Siri trả lời một câu hỏi tại một thời điểm.

Cung cấp cho các chatbot 3 đến 5 tác vụ đồng thời để kiểm tra xem chúng phân tích các lời nhắc phức tạp tốt như thế nào. Các mô hình kém phức tạp hơn không thể xử lý nhiều thông tin như vậy. Hình ảnh bên dưới cho thấy HuggingChat gặp trục trặc ở lời nhắc 3 bước - sự cố dừng ở bước một và đi chệch khỏi chủ đề.

HuggingChat cố gắng trả lời truy vấn nhiều bước

Những dòng cuối cùng của HuggingChat đã không mạch lạc.

HuggingChat bối rối sau khi trả lời truy vấn nhiều bước

ChatGPT nhanh chóng hoàn thành cùng một lời nhắc, tạo phản hồi thông minh, không có lỗi ở mỗi bước.

ChatGPT trả lời câu hỏi đầu tiên của truy vấn nhiều bước

Bing Chat cung cấp câu trả lời cô đọng cho 3 bước. Các hạn chế cứng nhắc của nó ngăn cấm những đầu ra dài không cần thiết gây lãng phí năng lượng xử lý.

Bing Chat cung cấp câu trả lời ngắn gọn cho dự án nhiều bước

3. Giới hạn bộ dữ liệu đào tạo

Vì đào tạo AI tiêu tốn nhiều tài nguyên nên hầu hết các nhà phát triển giới hạn bộ dữ liệu trong những khoảng thời gian cụ thể. Lấy ChatGPT làm ví dụ. Nó có giới hạn kiến thức vào tháng 9 năm 2021 - bạn không thể yêu cầu cập nhật thời tiết, báo cáo tin tức hoặc những phát triển gần đây. ChatGPT không có quyền truy cập vào thông tin thời gian thực.

ChatGPT không thể chia sẻ các sự kiện đáng chú ý vì nó bị giới hạn kiến thức

Bard có quyền truy cập vào Internet. Nó lấy dữ liệu từ Google SERPs, vì vậy bạn có thể hỏi nhiều loại câu hỏi hơn, ví dụ, các sự kiện, tin tức và dự đoán gần đây.

Bard chia sẻ các sự kiện đáng chú ý bằng cách chạy truy vấn Google

Tương tự như vậy, Bing Chat lấy thông tin theo thời gian thực từ công cụ tìm kiếm của nó.

Bing chia sẻ các sự kiện đáng chú ý bằng cách chạy truy vấn tìm kiếm trên Bing

Bing Chat và Bard cung cấp thông tin cập nhật, kịp thời, nhưng Bing Chat cung cấp phản hồi chi tiết hơn. Bing chỉ trình bày dữ liệu như vốn có. Bạn sẽ nhận thấy rằng kết quả đầu ra của nó thường khớp với cách diễn đạt và giọng điệu của các nguồn được liên kết.

4. Mức độ liên quan trong câu trả lời

Chatbot phải cung cấp đầu ra có liên quan. Chúng nên xem xét nghĩa đen và ngữ cảnh của lời nhắc khi phản hồi. Lấy cuộc trò chuyện này làm ví dụ. Nhân vật cần một chiếc điện thoại mới nhưng chỉ có $1000 - ChatGPT không vượt quá ngân sách.

ChatGPT đề xuất điện thoại thông minh dưới $1000

Khi kiểm tra mức độ liên quan, hãy thử tạo các hướng dẫn dài. Các chatbot ít tinh vi hơn có xu hướng đi chệch hướng khi được cung cấp những hướng dẫn khó hiểu. Chẳng hạn, HuggingChat có thể sáng tác những câu chuyện hư cấu. Nhưng nó có thể đi chệch khỏi chủ đề chính nếu bạn đặt ra quá nhiều quy tắc và hướng dẫn.

HuggingChat bị bối rối bởi lời nhắc nhiều bước

5. Bộ nhớ theo ngữ cảnh

Bộ nhớ theo ngữ cảnh giúp AI tạo ra đầu ra chính xác, đáng tin cậy. Thay vì xem xét bên ngoài các câu hỏi, chúng xâu chuỗi những chi tiết bạn đề cập lại với nhau. Lấy cuộc trò chuyện này làm ví dụ. Bing Chat kết nối hai tin nhắn riêng biệt để tạo thành một phản hồi ngắn gọn, hữu ích.

Bing Chat cung cấp cho các nhà văn những cuốn sách để nâng cao kỹ năng

Tương tự như vậy, bộ nhớ theo ngữ cảnh cho phép chatbot ghi nhớ các hướng dẫn. Hình ảnh này cho thấy ChatGPT bắt chước cách nói chuyện của một nhân vật hư cấu trong một số cuộc trò chuyện.

ChatGPT trả lời các câu hỏi như Ash từ Pokemon

Hãy tự mình kiểm tra chức năng này bằng cách liên tục tham khảo các câu lệnh trước đó. Cung cấp cho chatbot nhiều thông tin khác nhau, sau đó buộc chúng nhớ lại những thông tin này trong các phản hồi sau đó.

Lưu ý: Bộ nhớ theo ngữ cảnh bị hạn chế. Bing Chat bắt đầu cuộc trò chuyện mới sau mỗi 20 lượt, trong khi ChatGPT không thể xử lý lời nhắc trên 3.000 token.

6. Hạn chế bảo mật

AI không phải lúc nào cũng hoạt động như dự định. Đào tạo sai có thể khiến các công nghệ machine learning mắc nhiều lỗi khác nhau, từ những lỗi toán học nhỏ cho đến các nhận xét có vấn đề. Lấy Microsoft Tay làm ví dụ. Người dùng Twitter đã khai thác mô hình học tập không giám sát của nó và biến nó thành những lời nói tục tĩu về chủng tộc.

Rất may, các nhà lãnh đạo công nghệ toàn cầu đã học hỏi từ sai lầm của Microsoft. Mặc dù tiết kiệm chi phí và thuận tiện, nhưng học tập không giám sát khiến các hệ thống AI dễ bị đánh lừa. Do đó, các nhà phát triển chủ yếu dựa vào học tập có giám sát ngày nay. Chatbot như ChatGPT vẫn học hỏi từ các cuộc hội thoại, nhưng người huấn luyện chúng sẽ lọc thông tin trước.

Các hạn chế ít cứng nhắc hơn của ChatGPT có thể đáp ứng phạm vi tác vụ rộng hơn nhưng lại yếu trong việc chống lại việc khai thác. Trong khi đó, Bing Chat tuân theo các giới hạn chặt chẽ hơn. Mặc dù chúng giúp chống lại các nỗ lực khai thác, nhưng cũng cản trở chức năng. Bing tự động tắt các cuộc hội thoại có khả năng gây hại.

7. Thành kiến của AI

AI vốn dĩ là trung lập. AI thiếu sở thích và cảm xúc khiến nó không có khả năng hình thành quan điểm - AI chỉ trình bày thông tin mà nó biết. Đây là cách ChatGPT phản hồi các chủ đề chủ quan.

ChatGPT so sánh Iron Man và Captain America

Bất chấp tính trung lập này, những thành kiến trong AI vẫn phát sinh. Chúng bắt nguồn từ các mẫu, bộ dữ liệu, thuật toán và mô hình mà các nhà phát triển sử dụng. AI có thể vô tư, nhưng con người thì không.

Chẳng hạn, The Brookings Institution tuyên bố rằng ChatGPT thể hiện thành kiến chính trị cánh tả. Tất nhiên, OpenAI phủ nhận những cáo buộc này. Nhưng để tránh các vấn đề tương tự với những mô hình mới hơn, ChatGPT hoàn toàn tránh các kết quả đầu ra mang tính định kiến.

Tương tự như vậy, Bing Chat cũng tránh các vấn đề nhạy cảm, chủ quan.

Bing Chat không thể thảo luận về tôn giáo

Tự đánh giá những thành kiến của AI bằng cách đặt các câu hỏi mở, dựa trên quan điểm. Thảo luận về các chủ đề không có câu trả lời đúng hay sai - các chatbot kém tinh vi hơn có thể sẽ hiển thị những tùy chọn vô căn cứ đối với các nhóm cụ thể.

8. Tài liệu tham khảo

AI hiếm khi kiểm tra lại sự thật. Nó chỉ lấy thông tin từ bộ dữ liệu và viết lại chúng thông qua các mô hình ngôn ngữ. Thật không may, việc đào tạo hạn chế gây ảo giác AI. Bạn vẫn có thể sử dụng các công cụ Generative AI để nghiên cứu, nhưng hãy đảm bảo rằng bạn tự mình xác minh sự thật.

Bing Chat đơn giản hóa quy trình kiểm tra tính xác thực bằng cách liệt kê các tham chiếu của nó sau mỗi đầu ra.

Bing Chat trả lời câu hỏi về ngày ra mắt của ChatGPT

Bard AI không liệt kê các nguồn của nó nhưng tạo những giải thích chuyên sâu, cập nhật bằng cách chạy các truy vấn tìm kiếm của Google. Bạn sẽ nhận được những điểm chính từ SERPs.

Bard giải thích về dữ liệu khởi chạy và cập nhật gần đây của ChatGPT

ChatGPT dễ bị thiếu chính xác. Việc giới hạn kiến thức năm 2021 ngăn không cho nó trả lời các câu hỏi về những sự kiện và sự cố gần đây.

ChatGPT không thể trả lời câu hỏi kiến thức chung về sự kiện gần đây

Thứ Tư, 24/05/2023 09:57

5 ★ 1 👨 449

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!