Google phát hành kho công cụ nguồn mở dành cho các công ty nhằm tăng cường bảo mật dữ liệu cá nhân

Đối với những công ty đang hoạt động trong lĩnh vực cung cấp dịch vụ theo dõi các hoạt động trực tuyến của người dùng trên internet, ranh giới giữa việc tôn trọng hay xâm phạm đến quyền riêng tư của mỗi cá nhân luôn là yếu tố rất mong manh. Và một nhà cung cấp dịch vụ tìm kiếm - phân tích dữ liệu quy mô lớn như Google chắc chắn sẽ là mắt xích không thể thiếu trong vấn đề, hay nói đúng hơn là "sứ mệnh" thúc đẩy việc tôn trọng quyền riêng tư trong thế giới trực tuyến vốn có quy mô ngày càng lớn và phức tạp như hiện nay.

Để đạt được mục tiêu khó khăn đó, gã khổng lồ Mountain View đã quyết định xây dựng và chia sẻ công khai một thư viện nguồn mở mà họ sử dụng để thu thập thông tin chuyên sâu từ dữ liệu tổng hợp theo phương thức bảo vệ tối đa quyền riêng tư của mỗi cá nhân.

Differential PrivacyDifferential Privacy là một kỹ thuật thống kê đảm bảo quyền riêng tư trong thu thập và chia sẻ thông tin tổng hợp về người dùng

Với tên gọi Differentially Private SQL, thư viện nguồn mở này được tạo ra nhằm mục đích thúc đẩy mạnh mẽ hơn nữa ý tưởng về quyền riêng tư khác biệt (Differential Privacy - DP) - một kỹ thuật thống kê cho phép thu thập và chia sẻ thông tin tổng hợp về người dùng - nhưng đồng thời vẫn có thể đảm bảo quyền riêng tư cá nhân.

Về cơ bản, bộ công cụ này cho phép các nhà phát triển cũng như các tổ chức xây hoạt động trong lĩnh vực nêu trên xây dựng những công cụ có thể học hỏi, chắt lọc thông tin từ dữ liệu người dùng tổng hợp, trong khi không tiết lộ bất kỳ thông tin nhận dạng cá nhân nào. Cách tiếp như vậy sẽ trở nên đặc biệt hữu ích trong trường hợp các công ty muốn chia sẻ kho dữ liệu bí mật qua lại với nhau mà không muốn những dữ liệu này bị rò rỉ hoặc đánh cắp bởi các cuộc tấn công ẩn danh.

Hạn chế tiếp xúc và để lộ thông tin cá nhân

“Nếu bạn là một chuyên gia nghiên cứu trong lĩnh vực sức khỏe, bạn có thể muốn so sánh lượng thời gian trung bình từ lúc nhập viện cho đến khi xuất viện của các bệnh nhân ở nhiều bệnh viện khác nhau nhằm xác định xem có sự khác biệt đáng kể nào trong cách thức chăm sóc cũng như chất lượng dịch vụ khám, chữa bệnh hay không. Đó là nhu cầu hoàn toàn chính đáng và không hề hiếm gặp trong thực tế. Tuy nhiên nếu không được tiến hành đúng cách, việc thu thập và sử dụng những dữ liệu dạng này rất dễ xâm phạm vào sự riêng tư cá nhân. Lúc này, Differentially Private sẽ đóng vai trò như một phương tiện phân tích chuyên sâu, có thể để đảm bảo rằng mọi trường hợp sử dụng dữ liệu nhạy cảm như vậy đều được giải quyết theo cách bảo vệ tối đa quyền riêng tư của mỗi cá nhân”, Miguel Guevara, Giám đốc sản phẩm, người đứng đầu Văn phòng bảo vệ dữ liệu và quyền riêng tư Google, cho biết.

Differentially Private sẽ đóng vai trò như một phương tiện phân tích chuyên sâuDifferentially Private sẽ đóng vai trò như một phương tiện phân tích chuyên sâu

Nếu bạn chưa biết thì Differentially Private hoạt động dựa trên phương thức thêm một lượng “thông tin nhiễu” ngẫu nhiên vào một tập thông tin cá nhân trước khi nó được tải lên đám mây. Do đó về cơ bản, việc phân tích dữ liệu có thể tiết lộ các kết quả có ý nghĩa và đủ chính xác trong khi vẫn đảm bảo không làm lộ dữ liệu nhạy cảm của từng cá nhân.

Những công cụ nguồn mở mà Google chia sẻ công khai về cơ bản là một quá trình cho phép các tổ chức phân loại và phân tích những tập hợp riêng tư khác nhau trên cơ sở dữ liệu. “Ngoài việc cho phép nhiều bản ghi được liên kết với một người dùng riêng lẻ, các nhà phát triển hệ thống còn có thể sử dụng những công cụ nguồn mở này này để tính toán số lượng, tổng, trung bình, và tỷ lệ phần trăm đối với dữ liệu phân tích”, gã khổng lồ tìm kiếm cho biết.

Mục tiêu chính yếu của Differentially Private không phải là tối thiểu hóa dữ liệu: Nó sẽ không ngăn việc các công ty tìm kiếm dữ liệu cá nhân của bạn. Mà thay vào đó, nó giúp giảm thiểu các sự cố liên quan đến rò rỉ thông tin trong quá trình phân tích mẫu thông qua các kỹ thuật khai thác dữ liệu.

Google không đơn độc

Một trong những sáng kiến sớm nhất của riêng Google liên quan đến các công cụ nguồn mở hỗ trợ Differentially Private là RAPPOR, một phương pháp giúp thống kê nguồn gốc dữ liệu ẩn danh từ các ứng dụng như Chrome “với khả năng đảm bảo quyền riêng tư vô cùng mạnh mẽ”.

Kể từ đó, công ty đã sử dụng phương pháp này để bảo vệ tất cả các loại thông tin khác nhau mà họ tiếp cận được, từ dữ liệu vị trí của khách hàng di động Google Fi, đến việc thiết kế các tính năng giúp xác định mức độ phổ biến của một món ăn hay một nhà hàng trên Google Maps.

Công ty Mountain View thậm chí có kế hoạch tận dụng Differentially Private như một phần trong đề xuất mới của mình về chính sách chống theo dõi đối với mọi nền tảng web, một động thái đã gây ra mâu thuẫn cũng như sự chỉ trích mạnh mẽ từ những người ủng hộ quyền riêng tư cá nhân trên không gian mạng.

Dữ liệu cá nhânGoogle có thể tận dụng Differentially Private như một phần trong đề xuất về chính sách chống theo dõi đối với mọi nền tảng web

Tuy nhiên Google không phải là cái tên duy nhất tham gia vào vấn đề này. Differentially Private trên thực tế còn bao gồm toàn bộ thuật toán học máy đã được Apple sử dụng để thống kê dữ liệu người dùng iPhone một cách ẩn danh, trong khi vẫn đảm bảo thu được kết quả hữu ích.

Thế nhưng một nghiên cứu vào năm 2017 đã tìm thấy những sai sót trong cách tiếp cận của phương pháp này, đặc biệt là liên quan đến “tham số mất quyền riêng tư” - Một chỉ số giúp xác định sự đánh đổi giữa độ chính xác và quyền riêng tư.

Một doanh nghiệp lớn khác: Uber, cũng sở hữu một công cụ gần giống với Differentially Private gọi là FLEX. Công cụ này đã được sử dụng để hạn chế các truy vấn có thể tiết lộ quá nhiều thông tin cá nhân về bất kỳ tài xế Uber nào.

Công cụ theo mô hình Differentially Private được Uber xây dựng và triển khaiCông cụ theo mô hình Differentially Private được Uber xây dựng và triển khai

Một danh sách lớn các sáng kiến nguồn mở

Một phần lý do tại sao nên xây dựng sơ đồ triển khai Differentially Private và việc không hề đơn giản là bởi nó đòi hỏi cơ chế phải đảm bảo an toàn để giúp dữ liệu có thể được bảo vệ khỏi tất cả các tình huống, hậu quả không mong muốn sau khi phát hành, bao gồm cả vi phạm dữ liệu.

Bằng cách biến Differentially Private thành công cụ nguồn mở, Google không chỉ muốn cải thiện khả năng của công cụ này thông qua phản hồi sâu rộng từ giới chuyên gia, mà còn cả từ phía cộng đồng người dùng công nghệ nói chung.

Không dừng lại ở đó, Google còn hy vọng công cụ này sẽ được các nhà phát triển chấp nhận sâu rộng hơn nữa mà không cần phải thiết kế các giải pháp Differentially Private tùy chỉnh.

Thư viện nguồn mở được Google công bố lần này cũng chứa đựng một danh sách dài các sáng kiến nguồn mở tập trung chủ yếu vào quyền riêng tư, có thể kể đến như Federated Learning, TensorFlow Privacy, Private Join and Compute, Private Set Intersection, và confidential computing… tất cả đều hướng đến việc cải thiện quyền riêng tư và bảo mật ở nhiều cấp độ khác nhau trên không gian internet.

“Từ lĩnh vực y học, dịch vụ công, chính phủ, đến kinh doanh và hơn thế nữa, chúng tôi hy vọng rằng những công cụ nguồn mở này sẽ giúp tạo ra thêm hiểu biết có lợi hơn cho tất cả mọi người”, ông Miguel Guevara nhận định.

Google không phải là cái tên duy nhất tham gia vào vấn đề quyền riêng tư với Differentially Private Google không phải là cái tên duy nhất tham gia vào vấn đề quyền riêng tư với Differentially Private

Với thực trạng các chuyên ngành công nghệ tại Thung lũng Silicon đang ngày càng chịu nhiều sức ép mạnh mẽ hơn từ cả phía các cơ quan quản lý nhà nước cũng như công luận bởi một loạt các sai phạm nhức nhối về quyền riêng tư, nỗ lực không biết mệt mỏi của Google có thể được coi là một sự “sửa sai”, hoặc cũng có thể là một phương thức biện minh hiệu quả cho việc thu thập dữ liệu cá nhân nhằm mục đích kinh doanh quảng cáo thu lời của các nhà cung cấp ứng dụng, dịch vụ hiện nay nói chung.

Cuối cùng, lợi ích thực sự của Differentially Private vẫn là một điều gì đó khá mơ hồ. Tuy nhiên ngay cả khi công cụ này chỉ là một biện pháp giúp khắc phục một số vấn đề sai lầm về bảo mật dữ liệu và quyền riêng tư đã được tạo ra, vẫn đáng để đưa vào ứng dụng sâu rộng hơn.

Bạn có thể tìm hiểu sâu hơn về Differentially Private tại các địa chỉ sau:

  • https://github.com/google/differential-privacy/tree/master/differential_privacy
  • https://arxiv.org/abs/1909.01917
Thứ Năm, 12/09/2019 08:32
53 👨 319
0 Bình luận
Sắp xếp theo