Mức độ phổ biến của các mô hình ngôn ngữ lớn (LLM) đang tăng vọt, với những mô hình mới liên tục xuất hiện. Những mô hình như ChatGPT thường được đào tạo trên nhiều nguồn Internet khác nhau, bao gồm các bài báo, trang web, sách và phương tiện mạng xã hội.
Nhóm các nhà nghiên cứu Hàn Quốc đã phát triển DarkBERT, một LLM được đào tạo dựa trên những bộ dữ liệu được lấy độc quyền từ dark web. Mục đích của họ là tạo ra một công cụ AI vượt trội so với các mô hình ngôn ngữ hiện có và hỗ trợ những nhà nghiên cứu tìm hiểu về mối đe dọa, cơ quan thực thi pháp luật và các chuyên gia an ninh mạng trong việc chống lại những mối đe dọa trên mạng.
DarkBERT là gì?
DarkBERT là mô hình trình mã hóa dựa trên kiến trúc RoBERTa. LLM đã được đào tạo trên hàng triệu trang dark web, bao gồm dữ liệu từ những diễn đàn hack, trang web lừa đảo và các nguồn trực tuyến khác có liên quan đến những hoạt động bất hợp pháp.
Thuật ngữ "dark web" dùng để chỉ một phần Internet ẩn không thể truy cập được thông qua các trình duyệt web tiêu chuẩn. Phần Internet này nhiều tai tiếng vì chứa chấp các trang web ẩn danh và thị trường bất hợp pháp, chẳng hạn như buôn bán dữ liệu, ma túy và vũ khí bị đánh cắp.
Để đào tạo DarkBERT, các nhà nghiên cứu đã có quyền truy cập vào dark web thông qua mạng Tor và thu thập dữ liệu thô. Họ đã lọc cẩn thận dữ liệu này bằng các kỹ thuật như chống trùng lặp, cân bằng danh mục và tiền xử lý để tạo cơ sở dữ liệu dark web tinh chỉnh, sau đó được cung cấp cho RoBERTa trong khoảng 15 ngày để tạo DarkBERT.
DarkBERT có ý nghĩa gì đối với các tổ chức?
Nếu một công cụ như DarkBERT đã tồn tại vài năm trước, thì mã độc tống tiền WannaCry, gây thiệt hại khổng lồ 4 tỷ đô la, có lẽ chỉ là một mã độc tống tiền khác bị DarkBERT phát hiện trong quá trình lên kế hoạch tấn công ở những góc khuất sâu thẳm của Internet.
Với việc dữ liệu ngày càng được lưu trữ trên các thiết bị kỹ thuật số hoặc nền tảng đám mây, nhu cầu bảo mật hiện nay trở nên quan trọng hơn bao giờ hết. Sự ra đời của DarkBERT sẽ khiến các tổ chức muốn tích hợp việc kiểm tra dark web vào quy trình thẩm định của mình.
Trong tương lai, các nhà cung cấp phân tích bảo mật và SIEM sẽ bắt đầu cung cấp những giải pháp có thể tận dụng DarkBERT. Dưới đây là một số lợi ích tiềm năng của một giải pháp SIEM có thể làm được điều này:
- Giải pháp có thể xác định sự tồn tại của dữ liệu nhạy cảm của công ty trên dark web. Điều này có thể được thực hiện bằng cách cung cấp từ khóa cho Generative AI như DarkBERT.
- Một cảnh báo có thể được thiết lập trên công cụ an ninh mạng mỗi khi DarkBERT phát hiện ra mối đe dọa, vi phạm dữ liệu, mã độc tống tiền và hoạt động gián điệp của công ty trên diễn đàn tin tặc. Các nhóm tấn công có thể sử dụng DarkBERT để thu thập thông tin liên quan đến việc bán phần mềm độc hại hoặc những lỗ hổng mạng, và để tiến hành kiểm thử xâm nhập.
- Các báo cáo hàng tháng có thể được gửi từ DarkBERT đến giải pháp SIEM để phân tích và phát hiện những mối đe dọa một cách chủ động.
Thật khó để xác định tương lai của các công cụ an ninh mạng trong một ngành công nghiệp năng động như công nghệ thông tin. Nhưng nếu có một điều không thay đổi đối với các công cụ an ninh mạng, đó là chúng cần phải luôn đi trước kẻ thù. Với sự ra đời của một trí tuệ nhân tạo như DarkBERT, tương lai đầy rẫy những khả năng, và những gì có thể đến từ đó chỉ có thể tốt đẹp hơn.
Với DarkBERT, cơ hội chiến thắng mà không cần phải chiến đấu của bạn tăng lên đáng kể.
Các ứng dụng của DarkBERT trong an ninh mạng

DarkBERT có hiểu biết vượt trội về ngôn ngữ của tội phạm mạng và xuất sắc trong việc phát hiện các mối đe dọa tiềm ẩn cụ thể. Nó có thể nghiên cứu dark web, đồng thời xác định và gắn cờ thành công những mối đe dọa an ninh mạng như rò rỉ dữ liệu và ransomware, khiến nó trở thành một công cụ tiềm năng hữu ích để chống lại các mối đe dọa trên mạng.
Nghiên cứu được đăng trên arxiv.org chỉ ra rằng để đánh giá hiệu quả của DarkBERT, các nhà nghiên cứu đã so sánh nó với hai mô hình NLP nổi tiếng là BERT và RoBERTa, đánh giá hiệu suất của chúng qua 3 trường hợp sử dụng quan trọng liên quan đến an ninh mạng.
1. Theo dõi các diễn đàn Dark Web để tìm những chủ đề có khả năng gây hại
Giám sát các diễn đàn dark web, thường được sử dụng để trao đổi thông tin bất hợp pháp, là rất quan trọng để xác định các chủ đề nguy hiểm tiềm tàng. Tuy nhiên, việc xem xét thủ công những điều này có thể tốn thời gian, khiến việc tự động hóa quy trình có lợi cho các chuyên gia bảo mật.
Các nhà nghiên cứu tập trung vào những hoạt động có khả năng gây hại trong các diễn đàn hack, đưa ra những hướng dẫn chú thích cho các chủ đề đáng chú ý, bao gồm chia sẻ dữ liệu bí mật và phân phối phần mềm độc hại hoặc lỗ hổng nghiêm trọng.
DarkBERT vượt trội so với các mô hình ngôn ngữ khác về độ chính xác, khả năng thu hồi và điểm F1, nổi lên như một lựa chọn ưu việt để xác định các chủ đề đáng chú ý trên dark web.
2. Phát hiện các trang host thông tin bí mật
Các nhóm tin tặc và ransomware sử dụng dark web để tạo những trang web rò rỉ, nơi chúng công bố dữ liệu bí mật bị đánh cắp từ các tổ chức từ chối tuân thủ yêu cầu đòi tiền chuộc. Tội phạm mạng khác chỉ upload dữ liệu nhạy cảm bị rò rỉ, như mật khẩu và thông tin tài chính, lên dark web với ý định bán chúng.
Trong nghiên cứu của mình, các nhà nghiên cứu đã thu thập dữ liệu từ những nhóm ransomware khét tiếng và phân tích các trang web rò rỉ ransomware công bố dữ liệu riêng tư của các tổ chức. DarkBERT vượt trội so với các mô hình ngôn ngữ khác trong việc xác định và phân loại những trang web như vậy, thể hiện sự hiểu biết của nó về ngôn ngữ được sử dụng trong các diễn đàn hack ngầm trên dark web.
3. Xác định các từ khóa liên quan đến những mối đe dọa trên Dark Web

DarkBERT tận dụng chức năng lấp đầy mask, một tính năng vốn có của các mô hình ngôn ngữ họ BERT, để xác định chính xác các từ khóa liên quan đến những hoạt động bất hợp pháp, bao gồm cả việc bán ma túy trên dark web.
Khi từ "MDMA" bị ẩn trong trang bán thuốc, DarkBERT tạo ra các từ liên quan đến ma túy, trong khi những mô hình khác đề xuất các từ và thuật ngữ chung chung không liên quan đến ma túy, chẳng hạn như những ngành nghề khác nhau.
Khả năng xác định các từ khóa liên quan đến những hoạt động bất hợp pháp của DarkBERT có thể có giá trị trong việc theo dõi và giải quyết các mối đe dọa mạng mới nổi.
Công chúng có thể truy cập DarkBERT không?
DarkBERT hiện không có sẵn cho công chúng, nhưng các nhà nghiên cứu sẵn sàng có thể đưa yêu cầu sử dụng nó cho mục đích học thuật.
Khai thác sức mạnh của AI để phát hiện và ngăn chặn các mối đe dọa
DarkBERT đã được huấn luyện trước trên dữ liệu dark web và vượt trội hơn các mô hình ngôn ngữ hiện có trong nhiều trường hợp sử dụng an ninh mạng, tự định vị mình là một công cụ quan trọng để thúc đẩy nghiên cứu dark web.
AI được huấn luyện trên dark web có tiềm năng được sử dụng cho nhiều nhiệm vụ an ninh mạng khác nhau, bao gồm xác định các trang web bán dữ liệu bí mật bị rò rỉ, giám sát những diễn đàn dark web để phát hiện việc chia sẻ thông tin bất hợp pháp và xác định các từ khóa liên quan đến những mối đe dọa mạng.
Nhưng bạn nên luôn nhớ rằng, giống như các mô hình ngôn ngữ logic khác, DarkBERT vẫn đang trong quá trình phát triển và hiệu suất của nó có thể được cải thiện thông qua việc huấn luyện và tinh chỉnh liên tục.
Làm chủ AI
Học IT










AI
Hàm Excel