Bí mật phía sau chương trình miễn phí reCAPTCHA: Biến người dùng Internet thành “nhân công” miễn phí để điện tử hóa 17.600 quyển sách mỗi năm

Người dùng Internet đã quá quen thuộc với CAPTCHA, một công đoạn phiền toái khi lướt web để chứng minh người dùng là người thật chứ không phải robot.

Thuật ngữ CAPTCHA là viết tắt của Hệ thống Tự động Phân biệt Con người và Máy tính (Completely Automated Public Turing test to tell Computers and Humans Apart) do Luis von Ahn, tại Đại học Carnegie Mellon sáng tạo ra vào năm 2007.

CAPTCHA khá hiệu quả trong việc phòng tránh các cuộc tấn công từ chối dịch vụ hàng loạt hoặc đánh cắp dữ liệu và đặc biệt là chương trình này hoàn toàn miễn phí nên được rất nhiều trang web sử dụng.

reCAPTCHA reCAPTCHA vẫn là một chương trình CAPTCHA thông thường

Nhà sáng lập Lui nhận ra rằng, để hoàn tất một mẫu CAPTCHA mỗi người chỉ tốn vài giây, nhưng nếu tính tổng cộng số người dùng khổng lồ trên Internet thì có tới hàng trăm giờ lao động “lãng phí” đang đổ vào CAPTCHA mỗi ngày. Chính vì vậy, Luis đã cho ra đời reCAPTCHA nhằm tận dụng những giờ lao động quý giá này.

reCAPTCHA đang biến hàng chục triệu người dùng Internet thành những "cỗ máy đánh chữ" mà không hề hay biết

Về cơ bản, reCAPTCHA vẫn là một chương trình CAPTCHA thông thường và hoàn toàn miễn phí, dễ sử dụng. Rất nhanh chóng, reCAPTCHA đã được các chủ sở hữu website sử dụng làm chương trình phòng vệ mặc định.

Nhưng ít ai biết rằng, đằng sau chương trình miễn phí này là cả một mô hình kinh doanh "thiên tài", đang biến hàng chục triệu người dùng Internet thành những "cỗ máy đánh chữ" mà họ không hề hay biết.

reCAPTCHA hoạt động như thế nào?

reCAPTCHA yêu cầu người dùng phải nhập 2 chữ cái khác nhau

reCAPTCHA yêu cầu người dùng phải nhập 2 chữ cái khác nhau thay vì 1 chữ như các phần mềm nhận dạng khác. Ngoài ra, những chữ trên reCAPTCHA cũng rất dễ nhìn bởi được lấy từ các các văn bản vật lý (sách, báo, tờ rơi…) mà OCR - Optical Character Recognition, phần mềm nhận diện mặt chữ không thể xử lý được.

Các phần mềm OCR được sử dụng để chuyển dữ liệu (bài báo, trang sách…) từ bản in sang bản điện tử để lưu trữ và phân phối. Nhưng nhược điểm của OCR là không thể nhận ra chữ đó dù vẫn rất rõ nếu trang giấy có dấu hiệu sờn, cũ hoặc xuống cấp.

Với reCAPTCHA, trong 2 chữ người dùng phải nhập có một chữ đã được nhận diện và lưu trong kho dữ liệu, chữ còn lại được lấy trong danh sách các từ mà OCR không đọc được ở trên.

Khi một hình ảnh OCR không nhận diện được, có ít nhất 6 người dùng cùng sử dụng một chữ để thay thế thì reCAPTCHA sẽ công nhận nó như là một từ đã được "điện tử hóa" thành công.

reCAPTCHA giá trị như thế nào?

Sau 1 năm hoạt động, reCAPTCHA đã điện tử hóa thành công hơn 440 triệu từ

Với khả năng đọc chữ chính xác như vậy, reCAPTCHA đã được tờ báo danh tiếng New York Times thuê để điện tử hóa tất cả bài viết cũ. Và chỉ vài tháng sau đó, tất cả bài viết của New York Times trong vòng 20 năm trước khi máy tính xuất hiện đã được reCAPTCHA điện tử hóa dễ dàng.

Sau 1 năm hoạt động, reCAPTCHA đã điện tử hóa thành công hơn 440 triệu từ, tương đương với gần 17.600 quyển sách!

Vào năm 2009, Google đã chi ra một khoản tiền lớn (theo dự đoán ít nhất là 30 triệu USD) mua lại reCAPTCHA để sử dụng cho Google Books, biến đây trở thành thư viện điện tử lớn nhất thế giới chỉ sau vài năm.

Vào năm 2009, Google đã chi ra một khoản tiền lớn (theo dự đoán ít nhất là 30 triệu USD) mua lại reCAPTCHA

Ngoài ra, reCAPTCHA còn được Google sử dụng cho nhiều mục đích khác như giải mã số nhà, biển tên đường trên Google Maps Street View hoặc phân biệt các phương…

Google nhanh chóng chứng minh được rằng việc thu mua reCAPTCHA là điều hoàn toàn đúng đắn. Chỉ một thời gian ngắn, Google đã thu lại vốn mua reCAPTCHA qua các ứng dụng trên.

 Xem thêm: 

Thứ Tư, 05/12/2018 15:33
41 👨 413