Nguồn gốc của CAPTCHA và reCAPTCHA

Cũng như mọi thứ trong kỉ nguyên thông tin, thay đổi rất nhanh và mau chóng trở thành một thứ quen thuộc hàng ngày mà chúng ta còn không để ý. Hệ thống xác thực người dùng trên mạng CAPTCHA là một ví dụ.

Từ CAPTCHA là viết tắt của “Completely Automated Public Turing test to tell Computers and Humans Apart” (tạm dịch là bài kiểm tra tính tự động để phân biệt máy tính và con người”.

CAPTCHA lần đầu tiên được sử dụng vào năm 1997 khi công cụ tìm kiếm Alta-Vista muốn tìm ra một cách để chặn việc nộp các URL tự động lên bộ tìm kiếm của họ. Dù việc nộp URL giúp họ mở rộng kho để tìm kiếm nhưng cũng có những người dùng bot để spam máy chủ của họ, nhằm thao túng thuật toán xếp hạng của bộ tìm kiếm.

Andrei Broder, Chief Scientist tại Alta Vista đã tìm ra giải pháp, phát triển một thuật toán ngẫu nhiên tạo hình ảnh các văn bản in. Thuật toán này sau đó được hoàn thiện bởi các nhà nghiên cứu tại đại học Carnegie Mellon từ đầu những năm 2000s. Nhóm này, với người đứng đầu là Luis von Ahn (hay anh tự gọi mình là Big Lou) muốn tìm ra cách để phân biệt những spambot giả vờ là con người trên mạng.

Họ tạo ra một chương trình hiển thị các văn bản đã bị biến dạng mà máy tính không thể nhận ra, nhưng con người có thể đoán được. Người dùng sẽ phải gõ đoạn văn bản vào hộp thoại để được quyền truy cập.

CAPTCHA bằng hình ảnh không phải hình thức duy nhất, ngoài ra còn có dưới dạng âm thanh (thường bị làm méo tiếng để ngăn các phần mềm nhận diện giọng nói), câu hỏi bằng văn bản mà máy tính không thể hiểu được hay PiCAPTCHA, gồm một chuỗi các hình ảnh và yêu cầu người dùng chọn theo một thứ tự nhất định.

Rất thành công, CAPTCHA trở thành công cụ phổ biến và được người dùng chấp nhận. Nhưng họ đã quên mất một tính cách của con người: muốn được trả tiền. Các “nông trại” CAPTCHA spam xuất hiện khắp nơi trên Internet, đặc biệt là ở các nước nghèo và nhân viên chỉ cần trả lời các câu đố của CAPTCHA để nhận tiền.

Ở các “nông trại” này, CAPTCHA là một sản phẩm làm ra tiền hẳn hoi. Nhưng còn có hàng triệu người tự nguyện trả lời các câu đố của CAPTCHA miễn phí mà theo von Ahn thì đúng là lãng phí lao động không công.

CAPTCHA và reCAPTCHA trở thành công cụ nhận diện được nhiều trang sử dụng
CAPTCHA và reCAPTCHA trở thành công cụ nhận diện được nhiều trang sử dụng

Sau đó, reCAPTCHA ra đời và cũng rất phổ biến. Cách hoạt động khá giống trước, người dùng gõ văn bản và số trên màn hình. Nhưng thay vì các từ ngẫu nhiên, reCAPTCHA yêu cầu người dùng xem hình ảnh các chữ cái và con số từ văn bản đã được lưu trữ. Máy tính đọc văn bản cũ khá tốt nhưng khi mực bị mờ, giấy bị hỏng thì sẽ rất khó đọc, nhưng với con người thì có thể.

Họ bắt đầu bằng bản lưu trữ của tờ báo The New York Times, sau đó bán công nghệ này cho Google. Google lại dùng nó để gõ lại thành văn bản những cuốn sách cũ. Những hình ảnh mờ xấu đó chính là những từ có thật từ những trang giấy có thật. Nghĩa là bạn đã làm miễn phí cho Google và The New York Times.

Von Ahn rất hài lòng với phiên bản mới và cho rằng reCAPTCHA sẽ còn dùng được mãi vì “có rất nhiều văn bản in”. Nhưng đây là kỉ nguyên Internet và nhiều thứ chúng ta vẫn coi là nghiễm nhiên tồn tại trên mạng có thể biến mất một ngày nào đó. Hệ thống CAPTCHA cũng không phải ngoại lệ.

CAPTCHA không phải là không thể phá vỡ. Năm 2014, phân tích của Google cho thấy trí tuệ nhân tạo có thể phá vỡ được những hình ảnh CAPTCHA và reCAPTCHA phức tạp nhất với độ chính xác lên tới 99.8%.

Google đã tạo ra hệ thống mới No CAPTCHA reCAPTCHA, không dựa vào khả năng giải mã văn bản của người dùng mà là hành vi trên mạng của họ trước khi vượt qua điểm kiểm tra an ninh. Khi người dùng ở trên trang, thuật toán sẽ xem cách họ tương tác với nội dung để quyết định xem đó là người hay robot.

Cuộc chiến giữa các chuyên gia bảo mật và spambot có lẽ sẽ không khi nào có hồi kết. Một ngày nào đó No CAPTCHA reCAPTCHA cũng có thể bị qua mặt và thay thế bằng công nghệ khác. Khi đó, hãy luôn cảnh giác.

Xem thêm:

Thứ Năm, 16/05/2019 15:20
53 👨 571