Thuật ngữ metadata (siêu dữ liệu) đã xuất hiện từ cuối thế kỷ 20. Nó đã xuất hiện trên phần lớn các tiêu đề công nghệ trong vài năm qua, làm nổi bật tầm quan trọng của việc hiểu khái niệm này có ý nghĩa như thế nào đối với dữ liệu cá nhân, quyền riêng tư và bảo mật của người dùng.
Trước khi đưa ra quyết định liệu siêu dữ liệu có xứng đáng với tất cả sự chú ý mà nó đang nhận được hay không, trước tiên bạn cần hiểu ý nghĩa của metadata và cách nó có thể ảnh hưởng đến cuộc sống kỹ thuật số của bạn. Vậy metadata là gì? Siêu dữ liệu có thể tiết lộ điều gì về bạn? Và bạn có thể làm gì với nó?
Metadata là gì?
Bản dịch theo nghĩa đen của từ metadata là "về dữ liệu". Mặc dù siêu dữ liệu hiếm khi được phân loại là dữ liệu hữu ích, nhưng nó thường là bản tóm tắt của một tập dữ liệu lớn hơn nhiều - bất kỳ thứ gì từ file âm thanh và thông tin liên lạc đến hình ảnh và video. Nhưng siêu dữ liệu không chỉ là một bổ sung vô ích cho một tập hợp thông tin đã hoàn chỉnh.
Bạn có thể coi siêu dữ liệu là thông tin bên ngoài của một cuốn sách cùng với mục lục. Chúng không gây ảnh hưởng gì đến toàn bộ cuốn sách; mà cho phép bạn phân loại đúng cách mà không cần phải đọc toàn bộ nội dung.
Đối với các loại, siêu dữ liệu thường được phân loại tùy thuộc vào loại thông tin mà nó tiết lộ về file nguồn. Một file duy nhất có thể chứa nhiều loại siêu dữ liệu để cho phép các hệ thống điện tử cũng như người dùng, tổ chức phân loại file tốt hơn.
Siêu dữ liệu mô tả
Như tên cho thấy, siêu dữ liệu mô tả mô tả nội dung của file được đề cập. Thông tin trong siêu dữ liệu mô tả thường được sử dụng để lọc và tìm kiếm thông qua một thư viện file lớn - thường là cùng một loại.
Đây là loại siêu dữ liệu được sử dụng phổ biến nhất. Siêu dữ liệu mô tả thường bao gồm tên người tạo file, ngày tạo và thông tin quan trọng khác như thể loại, album và thậm chí cả ảnh bìa nếu đó là file âm thanh và ISBN cũng như tên tác giả của sách.
Siêu dữ liệu cấu trúc
Siêu dữ liệu cấu trúc cung cấp thông tin về thành phần và bố cục của dữ liệu trong một file cụ thể. Mặc dù thông tin này có thể được sử dụng để lọc, nhưng nó thường dành riêng cho việc khám phá sâu hơn và phân loại file.
Siêu dữ liệu cấu trúc có nhiều loại như độ dài của file âm thanh, số trang trong sách, mục lục và tiêu đề của các chương.
Siêu dữ liệu quản trị
Siêu dữ liệu quản trị có bản chất kỹ thuật. Nó chứa thông tin về cách mở và chạy file, bao gồm thông tin như định dạng của file. Loại siêu dữ liệu này có trong hầu hết các file và được đọc bởi thiết bị và phần mềm hoặc ứng dụng bạn sử dụng để chạy file.
Trong một số trường hợp, siêu dữ liệu quản trị cũng được phân loại là siêu dữ liệu quyền, bao gồm thông tin liên quan đến tài sản trí tuệ của file và ai có quyền truy cập hợp pháp vào file đó.
Siêu dữ liệu pháp lý
Siêu dữ liệu pháp lý cung cấp nghiêm ngặt thông tin về trạng thái pháp lý của file. Điều này bao gồm việc file thuộc về ai, được cấp giấy phép công khai hay riêng tư và bất kỳ thỏa thuận bổ sung, ràng buộc pháp lý nào mà nó có.
Tại sao siêu dữ liệu lại quan trọng?
Bất kể bạn đang sử dụng định dạng file nào và bạn đã tạo, tải xuống hay nhận file từ bạn bè, siêu dữ liệu đều đóng một vai trò trong cuộc sống kỹ thuật số hàng ngày của bạn. Và mặc dù thông tin siêu dữ liệu có thể ngắn gọn và không đáng kể, nhưng nó có thể bị thao túng và chắp vá lại với nhau để xâm phạm quyền riêng tư và bảo mật của bạn.
Nếu siêu dữ liệu của một hoặc nhiều file của bạn đã từng bị lộ ra ngoài, thì siêu dữ liệu đó sẽ không tiết lộ nội dung của file, mà thay vào đó, nó trả lời các câu hỏi cơ bản như:
- File này thuộc về ai?
- Nó chứa loại thông tin nào?
- Nó được tạo và lưu ở đâu?
- Nó được tạo khi nào và có được chỉnh sửa bởi chủ sở hữu hiện tại không?
Nhưng câu trả lời cho tất cả những câu hỏi đó gộp lại vẫn không mang nhiều ý nghĩa. Thông tin ở cấp độ cơ bản này có thể tiết lộ bao nhiêu về một người?
Siêu dữ liệu có thể tiết lộ điều gì về bạn?
Thông tin được thu thập từ một số file và hành động trên web là rất nhỏ.
Tuy nhiên, vấn đề nảy sinh khi siêu dữ liệu về một người được thu thập từ hàng nghìn nguồn trong một thời gian dài. Điều này bao gồm người mà bạn thường xuyên trò chuyện qua điện thoại và thư từ qua email, ngay cả khi họ không có quyền truy cập vào nội dung cuộc trò chuyện của bạn.
Với sự ra đời của việc theo dõi siêu dữ liệu về những loại thông tin mới, chẳng hạn như hình ảnh, nhiều thông tin hơn về bạn được tiết lộ. Những bức ảnh tự chụp thường xuyên và những bức ảnh về bữa tối của bạn được upload lên Twitter và Instagram có thể tiết lộ những vị trí bạn thường xuyên lui tới nhất, ngay cả khi bạn không gắn thẻ chúng - đó là lý do tại sao ứng dụng Camera yêu cầu quyền truy cập vào vị trí của bạn.
Về bản chất, việc siêu dữ liệu bị lộ là hành động vi phạm quyền riêng tư. Nó cho phép bất kỳ ai có quyền truy cập vào siêu dữ liệu theo dõi các chuyển động và kiểu giao tiếp của bạn. Với đủ thông tin và hệ thống AI tốt, các chuyển động và hoạt động sắp tới của bạn có thể bị dự đoán.
Mặc dù bạn có thể nhận thấy dấu hiệu việc theo dõi khi bạn nói chuyện với bạn bè và gia đình của mình, nhưng kết luận mà hệ thống phân tích tiên tiến đạt được có thể còn mang tính xâm phạm nhiều hơn. Rốt cuộc, những công ty theo dõi bạn giờ đây biết khi nào bạn liên hệ với các nhà cung cấp dịch vụ chăm sóc sức khỏe và bảo hiểm cũng như loại thông tin bạn đang tìm kiếm trực tuyến.
Một cuộc khảo sát của Security.org đã xem xét loại dữ liệu mà các trang web lớn nhất trên Internet thu thập, ngay cả khi họ không cần phải làm như vậy. Cuộc khảo sát bao gồm các trang web mạng xã hội như Facebook, Twitter, thậm chí cả Google, và phát hiện ra rằng phần lớn trong số họ lưu giữ thông tin người dùng mà họ không cần.
Dữ liệu bao gồm thông tin cá nhân, vị trí và hoạt động của người dùng. Thường thì bạn không thể chọn không tham gia loại thu thập dữ liệu này, ngay cả khi bạn chỉ cho phép những theo dõi và cookie thực sự cần thiết.
Làm thế nào để bạn tự bảo vệ mình?
Sử dụng VPN để ẩn hoạt động trực tuyến, chấp nhận số lượng cookie và trình theo dõi ít nhất mà bạn có thể khi truy cập bất kỳ trang web nào và cài những tiện ích chống theo dõi trình duyệt. Đối với thông tin cá nhân khác, hãy đảm bảo bạn xóa siêu dữ liệu khỏi bất kỳ file nào trước khi upload file đó lên Internet hoặc thậm chí gửi cho bạn bè.
Mặc dù gần như không thể tránh hoàn toàn việc theo dõi dữ liệu trực tuyến, đặc biệt là trên các trang web mà bạn có tài khoản trên đó, nhưng bạn có thể giảm thiểu thông tin họ có về bạn.