Việc xác định các mối đe dọa liên quan đến an ninh mạng từ dữ liệu internet thô có thể giống như “mò kim đáy bể” vậy. Chỉ cần lấy ví dụ về lượng dữ liệu lưu lượng truy cập internet đã được tạo trong khoảng thời gian 48 giờ thì con số này đã là quá lớn đối với một hoặc thậm chí 100 máy tính xách tay mạnh nhất hiện nay trong việc xử lý dữ liệu thành thứ gì đó “dễ tiêu hóa” cho các nhà phân tích bảo mật bằng da bằng thịt của chúng ta. Đó là lý do tại sao các nhà phân tích phải dựa vào việc lấy mẫu để tìm kiếm mối đe dọa tiềm tàng, sau đó chọn các phân đoạn dữ liệu nhỏ để xem xét một cách chuyên sâu hơn với hy vọng tìm thấy hành vi đáng ngờ nào đó.
Mặc dù kiểu lấy mẫu này có thể áp dụng được đối với một số tác vụ, chẳng hạn như xác định các địa chỉ IP phổ biến, nhưng nhìn chung thì trong việc tìm kiếm những xu hướng đe dọa tinh vi, phương pháp này lại tỏ ra quá hạn chế.
"Nếu bạn đang cố gắng phát hiện một hành vi dị thường thì bản thân theo định nghĩa đó đã là hành vi rất hiếm và khó xảy ra trong thực tế rồi, vậy mà còn áp dụng sàng lọc lấy mẫu như truyền thống nữa thì hiệu quả gần như bằng 0”, Vijay Gadepally, một nhân viên cấp cao tại trung tâm siêu máy tính thuộc Phòng thí nghiệm Lincoln (LLSC) chia sẻ.
Vijay Gadepally là một trong những chuyên gia đầu ngành của nhóm nghiên cứu tại phòng thí nghiệm Lincoln tin rằng siêu máy tính có thể cung cấp một phương pháp tốt hơn trong việc sàng lọc và nhận diện các mối đe dọa tiềm ẩn trên không gian mạng. Đó có thể là phương pháp cho phép các nhà phân tích truy cập vào tất cả dữ liệu thích hợp cùng một lúc để xác định cũng như phân tích những xu hướng khác biệt rất khó phát hiện này.
Trong một bài báo được xuất bản gần đây, nhóm nghiên cứu của Vijay Gadepally đã khoanh vùng và “cô lập” thành công dữ liệu lưu trữ về 96 giờ lưu lượng truy cập internet thô thành một gói dữ liệu có thể sẵn sàng để truy vấn. Cụ thể hơn, họ đã tạo ra gói dữ liệu này bằng sử dụng cùng lúc 30.000 lõi xử lý (tương đương với sức mạnh của khoảng 1.000 máy tính xách tay) tại phòng thí nghiệm LLSC ở Holyoke, Massachusetts, Hoa Kỳ, và dữ liệu đã được lưu trữ trong MIT SuperCloud - bất kỳ ai có tài khoản đều có thể truy cập được.
"[Nghiên cứu của chúng tôi] cho thấy rằng chúng ta hoàn toàn có thể tận dụng các nguồn tài nguyên siêu máy tính để thu thập, phân tích và đóng gói lượng dữ liệu khổng lồ, và đặt nó vào tình huống mà một nhà nghiên cứu an ninh mạng có thể sẽ phải sử dụng đến", ông Gadepally giải thích.
Một ví dụ về kiểu hoạt động đe dọa tiềm ẩn yêu cầu các nhà phân tích phải khai thác lượng dữ liệu khổng lồ để sàng lọc và nhận diện đó là những hướng dẫn từ các máy chủ chỉ huy và kiểm soát (C&C). Các máy chủ này thường ra lệnh cho những thiết bị bị nhiễm phần mềm độc hại nhằm đánh cắp hoặc thao túng dữ liệu.
Ngoài ra, Vijay Gadepally cũng đã so sánh mô hình hành vi của máy chủ chỉ huy và kiểm soát với những người gọi điện thoại spam. Thông thường một người gọi điện bình thường có thể thực hiện và nhận được số lượng cuộc gọi tương đối bằng nhau, tuy nhiên người gọi điện spam sẽ thực hiện nhiều cuộc gọi hơn hẳn số họ nhận được. Đó là ý tưởng tương tự được tìm thấy trên máy chủ C&C, và điều này chỉ có thể được tìm thấy bằng cách xem xét khối lượng dữ liệu khổng lồ trong một khoảng thời gian dài.
Nhóm nghiên cứu hiện đang có kế hoạch truyền bá thêm về khả năng nén một lượng dữ liệu lớn như vậy của siêu máy tính, và họ hy vọng các nhà phân tích sẽ tận dụng nguồn tài nguyên này để thực hiện bước tiếp theo trong việc phát hiện và trấn áp những mối đe dọa trên không gian mạng theo cách hiệu quả hơn. Ngoài ra, nhóm cũng đang nghiên cứu thêm cách để hiểu rõ hơn về việc toàn bộ hành vi internet "bình thường" trông sẽ như thế nào, nhằm xác định các mối đe dọa một cách dễ dàng hơn.
“Hiệu quả của việc phát hiện các mối đe dọa trên mạng có thể được tăng cường đáng kể bằng cách sử dụng một mô hình tổng hợp chính xác về lưu lượng truy cập mạng bình thường dựa trên khả năng của siêu máy tính. Và các nhà phân tích có thể so sánh dữ liệu về lưu lượng truy cập internet mà họ đang nghiên cứu với các mô hình này nhằm tìm ra hành vi bất thường dễ dàng hơn rất nhiều”, Jeremy Kepner, thành viên Phòng thí nghiệm Lincoln tại LLSC, người chịu trách nhiệm về nghiên cứu mới này cho biết.
Khi mà chính phủ, doanh nghiệp và người dùng cá nhân ngày càng tin tưởng và sử dụng internet cho các hoạt động hàng ngày của họ, thì việc duy trì an ninh mạng sẽ vẫn là một nhiệm vụ thiết yếu đối với các nhà nghiên cứu cũng như chuyên gia bảo mật trên toàn thế giới. Trong khi đó, siêu máy tính là nguồn tài nguyên có tiềm năng cực lớn nhưng vẫn chưa được khai thác đến.