Công cụ AI phát hiện văn bản do LLM tạo ra trong các bài báo nghiên cứu và đánh giá đồng nghiệp

Một phân tích hàng chục nghìn bài nghiên cứu đã cho thấy sự gia tăng đáng kể về sự hiện diện của văn bản được tạo ra bằng trí tuệ nhân tạo (AI) trong vài năm qua, theo một nhà xuất bản học thuật.

Hiệp hội Nghiên cứu Ung thư Hoa Kỳ (AACR) phát hiện rằng 23% tóm tắt trong các bản thảo và 5% báo cáo đánh giá đồng nghiệp nộp cho các tạp chí của họ vào năm 2024 chứa văn bản mà có khả năng được tạo ra bởi các mô hình ngôn ngữ lớn (LLMs). Các nhà xuất bản cũng phát hiện ra rằng chưa đến 25% tác giả tiết lộ việc sử dụng AI để chuẩn bị bản thảo, mặc dù nhà xuất bản quy định phải tiết lộ khi nộp.

ChatGPT và logo OpenAI hiển thị trên màn hình smartphone đặt trên bàn phím.
Ảnh: Nicolas Economou/NurPhoto via Getty

Để sàng lọc các bản thảo tìm dấu hiệu sử dụng AI, AACR đã sử dụng một công cụ AI được phát triển bởi Pangram Labs, có trụ sở tại thành phố New York. Khi áp dụng vào 46,500 tóm tắt, 46,021 phần phương pháp và 29,544 nhận xét đánh giá đồng nghiệp nộp cho 10 tạp chí AACR trong giai đoạn 2021 đến 2024, công cụ này đã phát hiện sự gia tăng văn bản nghi ngờ được tạo ra bởi AI trong các bài nộp và báo cáo đánh giá kể từ khi phát hành công khai chatbot ChatGPT của OpenAI vào tháng 11 năm 2022.

Chúng tôi đã sốc khi thấy kết quả từ Pangram,” Daniel Evanko, giám đốc hoạt động và hệ thống tạp chí của AACR, nói, người đã trình bày các phát hiện tại Đại hội Quốc tế lần thứ 10 về Đánh giá đồng nghiệp và Xuất bản Khoa học ở Chicago, Illinois, vào ngày 3 tháng 9.

Phân tích cho thấy văn bản do AI tạo ra trong báo cáo đánh giá đồng nghiệp đã giảm 50% vào cuối năm 2023, sau khi AACR cấm các nhà đánh giá đồng nghiệp sử dụng LLMs. Nhưng sự phát hiện văn bản do AI tạo ra trong các nhận xét đánh giá đồng nghiệp đã tăng gấp đôi vào đầu năm 2024 và tiếp tục gia tăng.

Thật đáng lo ngại khi thấy mọi người tăng cường sử dụng LLMs cho việc đánh giá đồng nghiệp mặc dù chúng tôi đã cấm việc này,” Evanko nói. Ông thêm rằng “mục đích của chúng tôi chắc chắn là bắt đầu sàng lọc tất cả các bản thảo đến và tất cả các nhận xét đánh giá đồng nghiệp đến.”

Công cụ “dường như hoạt động rất tốt,” Adam Day, người sáng lập Clear Skies, một công ty về tính toàn vẹn nghiên cứu có trụ sở tại London, nói. Tuy nhiên, “có thể có độ thiên lệch mà chúng tôi không nhìn thấy liên quan đến tỷ lệ dương tính giả, và chúng tôi nên lưu ý điều đó,” ông nói thêm.

Độ chính xác 99.85%

Pangram được đào tạo trên 28 triệu tài liệu viết bằng tay trước năm 2021, bao gồm 3 triệu bài báo khoa học, cũng như ‘gương AI’ — văn bản do LLM tạo ra sao chép các đoạn viết bởi con người về độ dài, phong cách và âm điệu.

Max Spero, giám đốc điều hành của Pangram Labs, cho biết việc thêm chế độ học chủ động vào Pangram là “một trong những đột phá” cho phép nó giảm tỷ lệ dương tính giả — tỷ lệ văn bản bị đánh dấu sai là do AI viết. Ông và nhóm của mình đã liên tục đào tạo lại công cụ, “giảm tỷ lệ dương tính giả của chúng tôi từ khoảng một phần trăm xuống khoảng một phần 10,000,” ông cho biết.

Trong một bản in trước được đăng tải vào năm ngoái, Spero và các đồng nghiệp của ông đã chỉ ra rằng độ chính xác của Pangram là 99.85%, với tỷ lệ lỗi thấp hơn 38 lần so với các công cụ phát hiện AI hiện có khác.

Thực hiện kiểm tra công cụ phát hiện AI trên các bản thảo trước khi ChatGPT được phát hành vào tháng 11 năm 2022, nó chỉ phát hiện ra bảy tóm tắt và không có phần phương pháp hay báo cáo đánh giá đồng nghiệp nào chứa văn bản có khả năng do AI tạo ra. “Từ đó trở đi, sự phát hiện chỉ gia tăng tuyến tính và ở mức mà chúng tôi nghĩ là rất cao,” Evanko nói.

Công cụ này cũng có thể phân biệt giữa các LLM khác nhau, bao gồm các mô hình ChatGPT, DeepSeek, LLaMa và Claude. “Chúng tôi chỉ có thể làm điều này vì chúng tôi đã tự tạo ra toàn bộ tập dữ liệu đào tạo của mình, vì vậy chúng tôi biết chính xác nguồn gốc, chúng tôi biết mô hình nào mà dữ liệu đào tạo đến từ,” Spero giải thích.

Mô hình hiện tại của Pangram không thể phân biệt giữa các đoạn văn do AI hoàn toàn tạo ra và những đoạn được viết bởi con người nhưng được chỉnh sửa bằng AI.

Hỗ trợ ngôn ngữ

AACR đã sử dụng Pangram để phân tích các bài nộp vào năm 2024 bao gồm 11,959 tóm tắt, 11,875 phần phương pháp và 7,211 báo cáo đánh giá đồng nghiệp.

Phân tích của họ cho thấy rằng các tác giả tại các tổ chức ở những quốc gia mà tiếng Anh không phải là ngôn ngữ mẹ đẻ có khả năng sử dụng LLMs gấp hơn hai lần.

Tôi đã thực sự sốc khi thấy mức độ sử dụng cao trong phần phương pháp,” Evanko nói. “Yêu cầu một LLM cải thiện ngôn ngữ của phần phương pháp có thể gây ra lỗi ... vì những chi tiết đó cần phải chính xác trong cách bạn thực hiện một điều gì đó và nếu bạn diễn đạt lại điều gì đó, có thể nó không còn chính xác nữa,” ông nói thêm.

Thứ Hai, 15/09/2025 17:10
31 👨 8
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo