AI cũng có thể bị "thối não" bởi thông tin rác trên mạng

"Thối não bộ" không chỉ xảy ra ở con người nữa. Theo một nghiên cứu mới, căn bệnh hiện đại này cũng ảnh hưởng đến trí tuệ nhân tạo - AI khi nó tiếp xúc nhiều với nội dung rác.

AI cũng có thể bị thối não

Nếu gần đây bạn thấy suy nghĩ của mình bị xâm chiếm bởi những từ khóa như "Ballerina Cappuccina" hay "Pedro Pedro", thì bạn không phải là người duy nhất. Hàng tỷ người đang tiếp nhận nội dung mạng xã hội chất lượng thấp mỗi tuần, và điều này đang ảnh hưởng đến não bộ của chúng ta. Loại nội dung này phổ biến đến mức hóa ra cũng có thể ảnh hưởng đến AI.

Một nhóm nghiên cứu từ Đại học Texas A&M, Đại học Texas tại Austin và Đại học Purdue đã phát hiện ra rằng việc cung cấp dữ liệu mạng xã hội chất lượng thấp cho các hệ thống AI gây ra sự suy giảm đáng kể về khả năng lập luận, trí nhớ và hành vi đạo đức.

Các nhà nghiên cứu gọi đây là Giả thuyết Thối não LLM - ý tưởng cho rằng "việc liên tục đào tạo trước bằng văn bản rác trên web sẽ gây ra sự suy giảm nhận thức lâu dài ở các LLM".

Các nhà nghiên cứu kiểm tra giả thuyết này như thế nào?

Để kiểm tra giả thuyết, nhóm nghiên cứu đã huấn luyện bốn mô hình nguồn mở, bao gồm Llama 3 của Meta và Qwen 3 của Alibaba, trên hơn một triệu bài đăng được lấy từ X (Twitter). Họ định nghĩa dữ liệu rác theo hai cách:

  • Rác dựa trên mức độ tương tác, bao gồm các bài đăng ngắn, lan truyền với số lượt thích và chia sẻ lại cao.
  • Rác ngữ nghĩa, bao gồm các bài đăng có "tiêu đề giật gân sử dụng ngôn ngữ câu view hoặc từ ngữ kích động quá mức", hoặc các bài đăng tập trung vào "các chủ đề hời hợt như thuyết âm mưu, tuyên bố phóng đại, khẳng định không có căn cứ hoặc nội dung hời hợt về lối sống".

Sau khi huấn luyện các mô hình trên nhiều mô hình khác nhau giữa nội dung rác và nội dung chất lượng cao, các nhà nghiên cứu đã kiểm tra chúng bằng các tiêu chuẩn AI tiêu chuẩn. Họ đo lường khả năng lập luận (ARC Challenge), khả năng hiểu ngữ cảnh dài (RULER), sự tuân thủ các chuẩn mực đạo đức (HH-RLHF và AdvBench) và xu hướng tính cách (TRAIT).

AI tiếp nhận thông tin rác

Kết quả rất rõ ràng: các mô hình được huấn luyện trên nhiều rác hơn có hiệu suất kém hơn trên nhiều khía cạnh. Trong một thử nghiệm, độ chính xác trong suy luận của một mô hình giảm từ 74,9 xuống 57,2 khi tỷ lệ dữ liệu rác tăng từ 0% lên 100%. Khả năng hiểu ngữ cảnh dài cũng cho thấy sự sụt giảm tương tự - từ 84,4 xuống 52,3.

Ngoài khả năng suy luận, nghiên cứu còn phát hiện ra những thay đổi trong hành vi của các mô hình tương tự như sự thay đổi về tính cách. Theo các tác giả, các mô hình tiếp xúc với dữ liệu rác trở nên kém dễ chịu hơn và có tỷ lệ tự luyến, rối loạn nhân cách chống đối xã hội cao hơn đáng kể.

Từ mới: Enshitification

Chúng ta đang sống trong thời đại mà nội dung AI (thường là nội dung AI chất lượng thấp) tràn lan trên internet. Theo một số ước tính, 50% nội dung được tạo ra hiện nay là AI. Nội dung này không chỉ làm hỏng não chúng ta mà còn dẫn đến một thứ gọi là enshittification - sự suy thoái dần dần của các nền tảng trực tuyến khi chúng được tối ưu hóa cho sự tương tác và lợi nhuận hơn là cho người dùng. Đối với AI, điều này có thể tạo ra một vòng lặp phản hồi độc hại.

Các nhà nghiên cứu gần như đã cạn kiệt nội dung văn bản chất lượng cao để đào tạo AI. Ngày nay, chúng ta đang phải vật lộn với các bài đăng và Tweet trên Reddit; Phần lớn nội dung này hiện nay là do AI tạo ra. Điều này khiến AI trở nên tệ hơn, từ đó khiến nội dung chúng tạo ra trở nên tệ hơn, và nội dung này được sử dụng để huấn luyện AI, khiến chúng dễ "thối não" theo thời gian.

Khi ngày càng nhiều nội dung rác do AI tạo ra lan truyền trên mạng xã hội, nó sẽ làm ô nhiễm chính dữ liệu mà các mô hình tương lai sẽ học hỏi”, Hong nói. “Những phát hiện của chúng tôi cho thấy một khi tình trạng ‘thối não’ này xảy ra, việc huấn luyện bằng nội dung "sạch" sau này không thể khắc phục hoàn toàn.

Đó là mối lo ngại đối với các công ty đang huấn luyện những hệ thống tạo sinh trên các tập dữ liệu trực tuyến khổng lồ. Các nhà nghiên cứu cảnh báo rằng dữ liệu Internet chưa được lọc có thể gây ra “ô nhiễm nội dung”, làm giảm hiệu suất của mô hình theo thời gian. Họ kêu gọi việc quản lý dữ liệu và kiểm soát chất lượng chặt chẽ hơn để ngăn chặn những tác hại lâu dài đối với lý luận và đạo đức của AI.

AI cũng bị thối não như con người

Tuy nhiên, trước khi lo lắng về AI, chúng ta nên lo lắng cho chính mình. Trong suôt thập kỷ qua, các nhà tâm lý học và thần kinh học đã chỉ ra rằng việc tiếp xúc quá nhiều với nội dung trực tuyến hời hợt, mang tính cảm xúc có thể định hình lại hệ thống khen thưởng và chú ý của não bộ. Các nghiên cứu đã chỉ ra mối liên hệ giữa việc sử dụng mạng xã hội quá mức với việc rút ngắn khoảng chú ý, giảm khả năng ghi nhớ làm việc và suy giảm khả năng ra quyết định. Các nghiên cứu liên tục cho thấy môi trường cuộn nhanh củng cố thói quen tiếp nhận thông tin bốc đồng, coi trọng sự mới lạ và phẫn nộ hơn là chiều sâu và sự suy ngẫm.

Đây chính là “sự thối rữa não bộ” hay brain rot khét tiếng. Không gian trực tuyến tràn ngập những thông tin giật gân và sai lệch không chỉ lãng phí thời gian; chúng còn tinh vi đào tạo lại các đường dẫn nhận thức để ưu tiên sự kích thích hơn là sự hiểu biết. Nó đang “làm thối rữa não bộ của chúng ta”.

Việc đào tạo về nội dung lan truyền hoặc gây chú ý có thể trông giống như việc mở rộng dữ liệu. Nhưng nó có thể âm thầm làm xói mòn lý luận, đạo đức và sự chú ý theo thời gian.

Thứ Tư, 05/11/2025 09:41
51 👨 20
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo