Tại sao bot không thể tích vào hộp kiểm "I'm not a robot"?

Một hộp kiểm nhỏ bé thì có thể phức tạp đến đâu chứ? Bạn không thể tưởng tượng được đâu.

Google đã phát minh ra một máy ảo, về cơ bản là một máy tính được giả lập bên trong máy tính khác, chỉ để chạy hộp kiểm đó. Máy ảo đó sử dụng ngôn ngữ riêng của Google, sau đó mã hóa 2 lần.

Nhưng đây không phải là quá trình mã hóa đơn giản. Thông thường, khi mật khẩu bảo vệ một cái gì đó, bạn có thể sử dụng key để giải mã nó. Ngôn ngữ của Google được giải mã bằng một key, thay đổi theo quá trình đọc ngôn ngữ và bản thân ngôn ngữ cũng thay đổi khi được đọc.

Google kết hợp (hay hash) key đó với địa chỉ web bạn đang truy cập, do đó bạn không thể sử dụng CAPTCHA từ một trang web để vượt qua trang web khác. Nó kết hợp thêm với fingerprint (dấu vân tay) từ trình duyệt, nắm bắt các biến thể siêu nhỏ trong máy tính - thứ mà bot sẽ phải vật lộn để sao chép (chẳng hạn như những quy tắc CSS).

Hộp kiểm "I'm not a robot"
Hộp kiểm "I'm not a robot"

Tất cả điều này được thực hiện chỉ để làm cho bạn khó mà hiểu được những gì Google đang làm. Bạn cần viết ra các công cụ để phân tích nó (may mắn thay đã có người làm điều đó).

Hóa ra các hộp kiểm này ghi lại và phân tích rất nhiều dữ liệu, bao gồm: Múi giờ và thời gian trên máy tính, địa chỉ IP và vị trí, kích thước và độ phân giải màn hình, trình duyệt và các plugin bạn sử dụng, trang mất bao lâu để hiển thị, có bao nhiêu lần nhấn phím, nhấp chuột và chạm/cuộn đã được thực hiện, cùng với một số thứ khác ta không thể hiểu được.

Các hộp này yêu cầu trình duyệt vẽ một hình ảnh vô hình và gửi cho Google để xác minh. Hình ảnh chứa những thứ giống như một font vô nghĩa. Sau đó, hình ảnh 3D này được thêm vào một kết cấu đặc biệt, để cho ra kết quả khác nhau giữa các máy tính.

Cuối cùng, những hộp kiểm nhỏ có vẻ đơn giản này kết hợp tất cả các dữ liệu với kiến ​​thức của chúng về người sử dụng máy tính. Hầu như tất cả mọi người trên Internet đều sử dụng thứ gì đó thuộc sở hữu của Google - tìm kiếm, thư, quảng cáo, bản đồ - và như bạn biết, Google theo dõi tất cả mọi thứ của bạn. Khi bạn nhấp vào hộp kiểm đó, Google sẽ xem xét lịch sử trình duyệt của bạn để xem liệu đó có đúng là người thật hay không.

Điều này rất dễ dàng, bởi vì Google liên tục quan sát hành vi của hàng tỷ người thực sự.

Việc Google kiểm tra tất cả những thông tin này chính xác đến đâu thì không ai biết được, nhưng gần như chắc chắn Google sử dụng machine learning (hay AI) trên máy chủ riêng mà người ngoài không thể sao chép.

Google sử dụng machine learning trên máy chủ riêng mà người ngoài không thể sao chép
Google sử dụng machine learning trên máy chủ riêng mà người ngoài không thể sao chép

Vậy tại sao tất cả điều này lại gây khó khăn cho một bot? Bởi vì bây giờ, bạn đã tạo ra một số lượng lớn các hành vi lộn xộn của con người, gần như không thể biết được và tiếp tục thay đổi. Nếu muốn có được tập hợp hành vi giống như vậy, bot phải đăng ký dịch vụ Google và sử dụng nó một cách thuyết phục trên một máy tính, sao cho khác với máy tính của các bot khác, theo cách bạn không thể hiểu được.

Bot cần có độ trễ giữa các lần nhấn phím, cuộn và di chuyển chuột giống như con người. Tất cả những điều này cực kỳ khó để bẻ khóa và dạy cho một máy tính. Sự phức tạp này dẫn đến khoản chi phí phải trả cho những người đi spam. Họ có thể phá vỡ nó trong một thời gian, nhưng nếu giả sử phải trả $1 cho mỗi lần thử thành công, thì có lẽ không đáng để làm vậy.

Chủ Nhật, 29/03/2020 08:41
52 👨 2.721