DarkBERT là gì? AI có thể giúp chống lại các mối đe dọa trên mạng không?

Chàng trai nhạt nhẽo

Mức độ phổ biến của các mô hình ngôn ngữ lớn (LLM) đang tăng vọt, với những mô hình mới liên tục xuất hiện. Những mô hình như ChatGPT thường được đào tạo trên nhiều nguồn Internet khác nhau, bao gồm các bài báo, trang web, sách và phương tiện mạng xã hội.

Nhóm các nhà nghiên cứu Hàn Quốc đã phát triển DarkBERT, một LLM được đào tạo dựa trên những bộ dữ liệu được lấy độc quyền từ dark web. Mục đích của họ là tạo ra một công cụ AI vượt trội so với các mô hình ngôn ngữ hiện có và hỗ trợ những nhà nghiên cứu tìm hiểu về mối đe dọa, cơ quan thực thi pháp luật và các chuyên gia an ninh mạng trong việc chống lại những mối đe dọa trên mạng.

Quy mô và số lượng các hoạt động bất hợp pháp diễn ra trên dark web

Trước khi đi sâu vào DarkBERT là gì, đây là một số thống kê để cho thấy quy mô và số lượng các hoạt động bất hợp pháp diễn ra trên dark web:

Những gì chúng ta thấy ngày nay chỉ chiếm 4% tổng số Internet. Phần còn lại thuộc về deep web và dark web.
60% dữ liệu trên dark web (60% của 75.000TB), nếu bị rò rỉ, có thể gây thiệt hại cho các công ty lớn.
Gần 27,48 triệu thông tin đăng nhập trên dark web thuộc về nhân viên của các công ty trong danh sách Fortune 1000.
Gần 56,8% nội dung trên dark web là bất hợp pháp.
Có hơn 8 triệu người dùng trên 10 diễn đàn hack dark web hoạt động tích cực nhất, và con số này chỉ tăng lên kể từ khi đại dịch bùng phát. Điều này là nhờ vào lệnh phong tỏa và, quan trọng hơn cả, các lớp mạng phức tạp che giấu địa chỉ IP của người dùng.

Vậy tất cả điều này có nghĩa là gì? Tóm lại bằng một từ: Rắc rối!

"Sự xuất sắc tối thượng không nằm ở việc thắng mọi trận chiến, mà là đánh bại kẻ thù mà không cần phải chiến đấu," theo Binh pháp Tôn Tử.

Trên web thông thường, chúng ta có các công cụ - những giải pháp SIEM tích hợp với khả năng UEBA và SOAR - để giúp chúng ta đạt được sự xuất sắc đó. Nhưng điều gì xảy ra trên dark web, nơi người dùng ẩn danh trao đổi dữ liệu nhạy cảm bằng ngôn ngữ mã hóa và bán thông tin nhận dạng cá nhân bị đánh cắp, dữ liệu giả mạo từ các công ty lớn, phần mềm độc hại, mạng botnet và bộ công cụ khai thác lỗ hổng?

Việc phát hiện và theo dõi các hoạt động này dường như gần như bất khả thi cho đến vài ngày trước, khi một nhóm các nhà nghiên cứu từ Hàn Quốc cùng nhau xây dựng một Generative AI dành riêng cho dark web có tên là DarkBERT.

Để hiểu DarkBERT, trước tiên chúng ta cần hiểu về tiền thân của nó. Vậy hãy quay ngược lại một chút và tìm hiểu sâu hơn.

DarkBERT là gì?

Bạn có thể tưởng tượng một thế giới không có cảnh sát hay lực lượng thực thi pháp luật không? Điều đó có nghĩa là gì? Nhiều tội phạm hơn. Nhiều lòng tham hơn. Nhiều sự bóc lột hơn. Ít an toàn hơn.

DarkBERT là mô hình trình mã hóa dựa trên kiến trúc RoBERTa. LLM đã được đào tạo trên hàng triệu trang dark web, bao gồm dữ liệu từ những diễn đàn hack, trang web lừa đảo và các nguồn trực tuyến khác có liên quan đến những hoạt động bất hợp pháp.

Thuật ngữ "dark web" dùng để chỉ một phần Internet ẩn không thể truy cập được thông qua các trình duyệt web tiêu chuẩn. Phần Internet này nhiều tai tiếng vì chứa chấp các trang web ẩn danh và thị trường bất hợp pháp, chẳng hạn như buôn bán dữ liệu, ma túy và vũ khí bị đánh cắp.

Để đào tạo DarkBERT, các nhà nghiên cứu đã có quyền truy cập vào dark web thông qua mạng Tor và thu thập dữ liệu thô. Họ đã lọc cẩn thận dữ liệu này bằng các kỹ thuật như chống trùng lặp, cân bằng danh mục và tiền xử lý để tạo cơ sở dữ liệu dark web tinh chỉnh, sau đó được cung cấp cho RoBERTa trong khoảng 15 ngày để tạo DarkBERT.

DarkBERT có ý nghĩa gì đối với các tổ chức?

Nếu một công cụ như DarkBERT đã tồn tại vài năm trước, thì mã độc tống tiền WannaCry, gây thiệt hại khổng lồ 4 tỷ đô la, có lẽ chỉ là một mã độc tống tiền khác bị DarkBERT phát hiện trong quá trình lên kế hoạch tấn công ở những góc khuất sâu thẳm của Internet.

Với việc dữ liệu ngày càng được lưu trữ trên các thiết bị kỹ thuật số hoặc nền tảng đám mây, nhu cầu bảo mật hiện nay trở nên quan trọng hơn bao giờ hết. Sự ra đời của DarkBERT sẽ khiến các tổ chức muốn tích hợp việc kiểm tra dark web vào quy trình thẩm định của mình.

Trong tương lai, các nhà cung cấp phân tích bảo mật và SIEM sẽ bắt đầu cung cấp những giải pháp có thể tận dụng DarkBERT. Dưới đây là một số lợi ích tiềm năng của một giải pháp SIEM có thể làm được điều này:

Giải pháp có thể xác định sự tồn tại của dữ liệu nhạy cảm của công ty trên dark web. Điều này có thể được thực hiện bằng cách cung cấp từ khóa cho Generative AI như DarkBERT.
Một cảnh báo có thể được thiết lập trên công cụ an ninh mạng mỗi khi DarkBERT phát hiện ra mối đe dọa, vi phạm dữ liệu, mã độc tống tiền và hoạt động gián điệp của công ty trên diễn đàn tin tặc. Các nhóm tấn công có thể sử dụng DarkBERT để thu thập thông tin liên quan đến việc bán phần mềm độc hại hoặc những lỗ hổng mạng, và để tiến hành kiểm thử xâm nhập.
Các báo cáo hàng tháng có thể được gửi từ DarkBERT đến giải pháp SIEM để phân tích và phát hiện những mối đe dọa một cách chủ động.

Thật khó để xác định tương lai của các công cụ an ninh mạng trong một ngành công nghiệp năng động như công nghệ thông tin. Nhưng nếu có một điều không thay đổi đối với các công cụ an ninh mạng, đó là chúng cần phải luôn đi trước kẻ thù. Với sự ra đời của một trí tuệ nhân tạo như DarkBERT, tương lai đầy rẫy những khả năng, và những gì có thể đến từ đó chỉ có thể tốt đẹp hơn.

Với DarkBERT, cơ hội chiến thắng mà không cần phải chiến đấu của bạn tăng lên đáng kể.

Các ứng dụng của DarkBERT trong an ninh mạng

Trí tuệ nhân tạo được trình bày một cách trừu tượng

DarkBERT có hiểu biết vượt trội về ngôn ngữ của tội phạm mạng và xuất sắc trong việc phát hiện các mối đe dọa tiềm ẩn cụ thể. Nó có thể nghiên cứu dark web, đồng thời xác định và gắn cờ thành công những mối đe dọa an ninh mạng như rò rỉ dữ liệu và ransomware, khiến nó trở thành một công cụ tiềm năng hữu ích để chống lại các mối đe dọa trên mạng.

Nghiên cứu được đăng trên arxiv.org chỉ ra rằng để đánh giá hiệu quả của DarkBERT, các nhà nghiên cứu đã so sánh nó với hai mô hình NLP nổi tiếng là BERT và RoBERTa, đánh giá hiệu suất của chúng qua 3 trường hợp sử dụng quan trọng liên quan đến an ninh mạng.

1. Theo dõi các diễn đàn Dark Web để tìm những chủ đề có khả năng gây hại

Giám sát các diễn đàn dark web, thường được sử dụng để trao đổi thông tin bất hợp pháp, là rất quan trọng để xác định các chủ đề nguy hiểm tiềm tàng. Tuy nhiên, việc xem xét thủ công những điều này có thể tốn thời gian, khiến việc tự động hóa quy trình có lợi cho các chuyên gia bảo mật.

Các nhà nghiên cứu tập trung vào những hoạt động có khả năng gây hại trong các diễn đàn hack, đưa ra những hướng dẫn chú thích cho các chủ đề đáng chú ý, bao gồm chia sẻ dữ liệu bí mật và phân phối phần mềm độc hại hoặc lỗ hổng nghiêm trọng.

DarkBERT vượt trội so với các mô hình ngôn ngữ khác về độ chính xác, khả năng thu hồi và điểm F1, nổi lên như một lựa chọn ưu việt để xác định các chủ đề đáng chú ý trên dark web.

2. Phát hiện các trang host thông tin bí mật

Các nhóm tin tặc và ransomware sử dụng dark web để tạo những trang web rò rỉ, nơi chúng công bố dữ liệu bí mật bị đánh cắp từ các tổ chức từ chối tuân thủ yêu cầu đòi tiền chuộc. Tội phạm mạng khác chỉ upload dữ liệu nhạy cảm bị rò rỉ, như mật khẩu và thông tin tài chính, lên dark web với ý định bán chúng.

Trong nghiên cứu của mình, các nhà nghiên cứu đã thu thập dữ liệu từ những nhóm ransomware khét tiếng và phân tích các trang web rò rỉ ransomware công bố dữ liệu riêng tư của các tổ chức. DarkBERT vượt trội so với các mô hình ngôn ngữ khác trong việc xác định và phân loại những trang web như vậy, thể hiện sự hiểu biết của nó về ngôn ngữ được sử dụng trong các diễn đàn hack ngầm trên dark web.

3. Xác định các từ khóa liên quan đến những mối đe dọa trên Dark Web

Hình bóng đằng sau code màu xanh

DarkBERT tận dụng chức năng lấp đầy mask, một tính năng vốn có của các mô hình ngôn ngữ họ BERT, để xác định chính xác các từ khóa liên quan đến những hoạt động bất hợp pháp, bao gồm cả việc bán ma túy trên dark web.

Khi từ "MDMA" bị ẩn trong trang bán thuốc, DarkBERT tạo ra các từ liên quan đến ma túy, trong khi những mô hình khác đề xuất các từ và thuật ngữ chung chung không liên quan đến ma túy, chẳng hạn như những ngành nghề khác nhau.

Khả năng xác định các từ khóa liên quan đến những hoạt động bất hợp pháp của DarkBERT có thể có giá trị trong việc theo dõi và giải quyết các mối đe dọa mạng mới nổi.

Công chúng có thể truy cập DarkBERT không?

DarkBERT hiện không có sẵn cho công chúng, nhưng các nhà nghiên cứu sẵn sàng có thể đưa yêu cầu sử dụng nó cho mục đích học thuật.

Khai thác sức mạnh của AI để phát hiện và ngăn chặn các mối đe dọa

DarkBERT đã được huấn luyện trước trên dữ liệu dark web và vượt trội hơn các mô hình ngôn ngữ hiện có trong nhiều trường hợp sử dụng an ninh mạng, tự định vị mình là một công cụ quan trọng để thúc đẩy nghiên cứu dark web.

AI được huấn luyện trên dark web có tiềm năng được sử dụng cho nhiều nhiệm vụ an ninh mạng khác nhau, bao gồm xác định các trang web bán dữ liệu bí mật bị rò rỉ, giám sát những diễn đàn dark web để phát hiện việc chia sẻ thông tin bất hợp pháp và xác định các từ khóa liên quan đến những mối đe dọa mạng.

Nhưng bạn nên luôn nhớ rằng, giống như các mô hình ngôn ngữ logic khác, DarkBERT vẫn đang trong quá trình phát triển và hiệu suất của nó có thể được cải thiện thông qua việc huấn luyện và tinh chỉnh liên tục.

Thứ Ba, 07/07/2026 17:36

5 ★ 2 👨 477

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Giấy phép Mạng Xã Hội số 362/GP-BTTTT do bộ TTTT cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

DarkBERT là gì? AI có thể giúp chống lại các mối đe dọa trên mạng không?

Chàng trai nhạt nhẽo

Quy mô và số lượng các hoạt động bất hợp pháp diễn ra trên dark web

DarkBERT là gì?

DarkBERT có ý nghĩa gì đối với các tổ chức?

Các ứng dụng của DarkBERT trong an ninh mạng

1. Theo dõi các diễn đàn Dark Web để tìm những chủ đề có khả năng gây hại

2. Phát hiện các trang host thông tin bí mật

3. Xác định các từ khóa liên quan đến những mối đe dọa trên Dark Web

Công chúng có thể truy cập DarkBERT không?

Khai thác sức mạnh của AI để phát hiện và ngăn chặn các mối đe dọa

Bạn nên đọc

Machine learning là gì? Deep learning là gì? Sự khác biệt giữa AI, machine learning và deep learning

Auto-GPT là gì? Nó khác với ChatGPT như thế nào?

TOP trợ lý AI cho CEO, quản lý và founder tốt nhất

Zapier vs ChatGPT: Khác nhau ở đâu, nên dùng khi nào?

30+ cheat codes Gemini tăng gấp đôi hiệu quả AI

Hộp đen AI là gì? Chúng hoạt động như thế nào?

ChatGPT tạo một trang web chỉ trong 11 giây: Kết quả liệu có đáng tin cậy?

TOP công cụ AI quản lý chiến dịch PPC tốt nhất

Hướng dẫn dùng tính năng "Đã lên lịch" trên Meta AI