Một nghiên cứu mới do các nhà khoa học từ Anthropic và ETH Zurich thực hiện cho thấy các hệ thống trí tuệ nhân tạo hiện đại có thể xác định danh tính ngoài đời thực của những tài khoản internet tưởng chừng ẩn danh. Nghiên cứu được công bố dưới dạng bản thảo trên nền tảng arXiv cho thấy các mô hình ngôn ngữ lớn (LLM) có khả năng phân tích hoạt động trực tuyến và liên kết các hồ sơ dùng bút danh với con người thật ở quy mô lớn.
Công trình có tiêu đề “Large-scale online deanonymization with LLMs” tập trung vào việc nghiên cứu cách các tác nhân AI có thể tự động hóa quá trình “giải ẩn danh” – tức là liên kết các tài khoản ẩn danh hoặc dùng bút danh với danh tính thực.
Trước đây, quá trình này thường đòi hỏi các nhà phân tích phải thực hiện nhiều bước điều tra thủ công, bao gồm tìm kiếm các bài đăng, phân tích phong cách viết và lần theo những manh mối rải rác trên internet. Tuy nhiên, nhóm nghiên cứu cho thấy các mô hình AI hiện đại có thể tự động thực hiện nhiều bước trong quá trình này.
Trong nghiên cứu, hệ thống AI đã phân tích văn bản công khai từ các nền tảng trực tuyến và trích xuất những tín hiệu liên quan đến danh tính, chẳng hạn như sở thích cá nhân, các manh mối về nhân khẩu học, phong cách viết và những chi tiết vô tình được tiết lộ trong bài đăng. Sau đó, AI tìm kiếm các hồ sơ tương tự trên internet và đánh giá xem những manh mối này có khớp với các cá nhân đã biết hay không.
Để kiểm tra phương pháp này, các nhà nghiên cứu đã xây dựng nhiều bộ dữ liệu với danh tính thật đã được xác định trước. Trong một thí nghiệm, hệ thống AI cố gắng ghép người dùng trên diễn đàn Hacker News với hồ sơ LinkedIn của họ, ngay cả khi các thông tin nhận dạng rõ ràng như tên hoặc tên người dùng đã bị loại bỏ.

Một bộ dữ liệu khác liên quan đến việc liên kết các tài khoản Reddit dùng bút danh hoạt động trong nhiều cộng đồng khác nhau. Trong khi đó, một thử nghiệm khác tách lịch sử đăng bài của một người thành hai hồ sơ riêng biệt để kiểm tra xem AI có thể nhận ra rằng cả hai hồ sơ đó thuộc cùng một cá nhân hay không.
Kết quả cho thấy các hệ thống dựa trên mô hình ngôn ngữ lớn vượt trội đáng kể so với các kỹ thuật giải ẩn danh truyền thống. Trong một số trường hợp, mô hình đạt tỷ lệ recall lên tới 68% với độ chính xác khoảng 90%, nghĩa là AI có thể xác định đúng nhiều tài khoản trong khi vẫn duy trì tỷ lệ sai sót tương đối thấp. Trong cùng các thí nghiệm đó, những phương pháp truyền thống gần như không đạt được kết quả đáng kể.
Theo các nhà nghiên cứu, kết quả này cho thấy AI có thể tái tạo những nhiệm vụ trước đây từng đòi hỏi nhiều giờ làm việc của các nhà điều tra con người. Một hệ thống AI có thể tự động trích xuất các đặc điểm liên quan đến danh tính từ văn bản, tìm kiếm hàng nghìn hồ sơ tiềm năng và suy luận xem ứng viên nào có khả năng chính xác nhất.
Sự phát triển này được xem là đáng chú ý bởi tính ẩn danh từ lâu đã được coi là một lớp bảo vệ cơ bản cho nhiều người dùng internet. Các tài khoản dùng bút danh được sử dụng rộng rãi bởi nhà báo, người tố giác sai phạm, nhà hoạt động xã hội cũng như những cá nhân muốn thảo luận các chủ đề nhạy cảm mà không tiết lộ danh tính thật.
Nghiên cứu cho thấy lớp bảo vệ này – đôi khi được gọi là “sự mờ nhạt thực tế” – có thể đang dần suy yếu khi các hệ thống AI ngày càng giỏi trong việc kết nối các dấu vết kỹ thuật số trên nhiều nền tảng khác nhau. Nếu các công cụ tự động có thể thực hiện công việc này nhanh chóng và với chi phí thấp, rào cản để xác định danh tính người dùng ẩn danh có thể giảm mạnh.
Các nhà nghiên cứu ước tính chi phí để xác định danh tính một tài khoản trực tuyến bằng hệ thống thử nghiệm của họ có thể chỉ khoảng 1 đến 4 USD cho mỗi hồ sơ , đồng nghĩa với việc các cuộc điều tra quy mô lớn có thể được thực hiện với chi phí tương đối thấp.
Tuy vậy, nhóm tác giả cũng lưu ý rằng nghiên cứu được tiến hành trong môi trường kiểm soát và chỉ sử dụng dữ liệu công khai. Công trình này vẫn chưa trải qua quá trình bình duyệt khoa học, và một số chi tiết kỹ thuật đã được giữ lại để giảm nguy cơ bị lạm dụng.
Dù vậy, kết quả nghiên cứu đã nhanh chóng tạo ra cuộc tranh luận giữa các chuyên gia về quyền riêng tư và công nghệ. Nhiều ý kiến cho rằng người dùng có thể cần suy nghĩ lại về lượng thông tin cá nhân họ chia sẻ trên internet, ngay cả trong những không gian tưởng chừng ẩn danh.
Trong tương lai, các nhà nghiên cứu cho rằng cần tiếp tục tìm hiểu sâu hơn về cả rủi ro lẫn các biện pháp phòng vệ trước công nghệ giải ẩn danh bằng AI. Những giải pháp tiềm năng có thể bao gồm các công cụ bảo vệ quyền riêng tư tốt hơn, cơ chế bảo mật mạnh hơn từ các nền tảng trực tuyến, hoặc các hệ thống AI được thiết kế để tự động ẩn danh dữ liệu nhạy cảm trước khi được công khai.
Khi trí tuệ nhân tạo ngày càng mạnh trong việc phân tích khối lượng lớn nội dung trực tuyến, nghiên cứu này đặt ra một thách thức mới: làm thế nào để cân bằng giữa sức mạnh khám phá của AI và nhu cầu bảo vệ quyền riêng tư cá nhân trong thời đại số.
Học IT










Công nghệ
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Prompt
Ô tô, Xe máy