Mức độ phổ biến của các mô hình ngôn ngữ lớn (LLM) đang tăng vọt, với những mô hình mới liên tục xuất hiện. Những mô hình như ChatGPT thường được đào tạo trên nhiều nguồn Internet khác nhau, bao gồm các bài báo, trang web, sách và phương tiện mạng xã hội.
Nhóm các nhà nghiên cứu Hàn Quốc đã phát triển DarkBERT, một LLM được đào tạo dựa trên những bộ dữ liệu được lấy độc quyền từ dark web. Mục đích của họ là tạo ra một công cụ AI vượt trội so với các mô hình ngôn ngữ hiện có và hỗ trợ những nhà nghiên cứu tìm hiểu về mối đe dọa, cơ quan thực thi pháp luật và các chuyên gia an ninh mạng trong việc chống lại những mối đe dọa trên mạng.
DarkBERT là gì?
DarkBERT là mô hình trình mã hóa dựa trên kiến trúc RoBERTa. LLM đã được đào tạo trên hàng triệu trang dark web, bao gồm dữ liệu từ những diễn đàn hack, trang web lừa đảo và các nguồn trực tuyến khác có liên quan đến những hoạt động bất hợp pháp.
Thuật ngữ "dark web" dùng để chỉ một phần Internet ẩn không thể truy cập được thông qua các trình duyệt web tiêu chuẩn. Phần Internet này nhiều tai tiếng vì chứa chấp các trang web ẩn danh và thị trường bất hợp pháp, chẳng hạn như buôn bán dữ liệu, ma túy và vũ khí bị đánh cắp.
Để đào tạo DarkBERT, các nhà nghiên cứu đã có quyền truy cập vào dark web thông qua mạng Tor và thu thập dữ liệu thô. Họ đã lọc cẩn thận dữ liệu này bằng các kỹ thuật như chống trùng lặp, cân bằng danh mục và tiền xử lý để tạo cơ sở dữ liệu dark web tinh chỉnh, sau đó được cung cấp cho RoBERTa trong khoảng 15 ngày để tạo DarkBERT.
Các ứng dụng của DarkBERT trong an ninh mạng
DarkBERT có hiểu biết vượt trội về ngôn ngữ của tội phạm mạng và xuất sắc trong việc phát hiện các mối đe dọa tiềm ẩn cụ thể. Nó có thể nghiên cứu dark web, đồng thời xác định và gắn cờ thành công những mối đe dọa an ninh mạng như rò rỉ dữ liệu và ransomware, khiến nó trở thành một công cụ tiềm năng hữu ích để chống lại các mối đe dọa trên mạng.
Nghiên cứu được đăng trên arxiv.org chỉ ra rằng để đánh giá hiệu quả của DarkBERT, các nhà nghiên cứu đã so sánh nó với hai mô hình NLP nổi tiếng là BERT và RoBERTa, đánh giá hiệu suất của chúng qua 3 trường hợp sử dụng quan trọng liên quan đến an ninh mạng.
1. Theo dõi các diễn đàn Dark Web để tìm những chủ đề có khả năng gây hại
Giám sát các diễn đàn dark web, thường được sử dụng để trao đổi thông tin bất hợp pháp, là rất quan trọng để xác định các chủ đề nguy hiểm tiềm tàng. Tuy nhiên, việc xem xét thủ công những điều này có thể tốn thời gian, khiến việc tự động hóa quy trình có lợi cho các chuyên gia bảo mật.
Các nhà nghiên cứu tập trung vào những hoạt động có khả năng gây hại trong các diễn đàn hack, đưa ra những hướng dẫn chú thích cho các chủ đề đáng chú ý, bao gồm chia sẻ dữ liệu bí mật và phân phối phần mềm độc hại hoặc lỗ hổng nghiêm trọng.
DarkBERT vượt trội so với các mô hình ngôn ngữ khác về độ chính xác, khả năng thu hồi và điểm F1, nổi lên như một lựa chọn ưu việt để xác định các chủ đề đáng chú ý trên dark web.
2. Phát hiện các trang host thông tin bí mật
Các nhóm tin tặc và ransomware sử dụng dark web để tạo những trang web rò rỉ, nơi chúng công bố dữ liệu bí mật bị đánh cắp từ các tổ chức từ chối tuân thủ yêu cầu đòi tiền chuộc. Tội phạm mạng khác chỉ upload dữ liệu nhạy cảm bị rò rỉ, như mật khẩu và thông tin tài chính, lên dark web với ý định bán chúng.
Trong nghiên cứu của mình, các nhà nghiên cứu đã thu thập dữ liệu từ những nhóm ransomware khét tiếng và phân tích các trang web rò rỉ ransomware công bố dữ liệu riêng tư của các tổ chức. DarkBERT vượt trội so với các mô hình ngôn ngữ khác trong việc xác định và phân loại những trang web như vậy, thể hiện sự hiểu biết của nó về ngôn ngữ được sử dụng trong các diễn đàn hack ngầm trên dark web.
3. Xác định các từ khóa liên quan đến những mối đe dọa trên Dark Web
DarkBERT tận dụng chức năng lấp đầy mask, một tính năng vốn có của các mô hình ngôn ngữ họ BERT, để xác định chính xác các từ khóa liên quan đến những hoạt động bất hợp pháp, bao gồm cả việc bán ma túy trên dark web.
Khi từ "MDMA" bị ẩn trong trang bán thuốc, DarkBERT tạo ra các từ liên quan đến ma túy, trong khi những mô hình khác đề xuất các từ và thuật ngữ chung chung không liên quan đến ma túy, chẳng hạn như những ngành nghề khác nhau.
Khả năng xác định các từ khóa liên quan đến những hoạt động bất hợp pháp của DarkBERT có thể có giá trị trong việc theo dõi và giải quyết các mối đe dọa mạng mới nổi.
Công chúng có thể truy cập DarkBERT không?
DarkBERT hiện không có sẵn cho công chúng, nhưng các nhà nghiên cứu sẵn sàng có thể đưa yêu cầu sử dụng nó cho mục đích học thuật.