Nhiều công ty công nghệ lớn nhỏ đang “đau đầu” với việc tìm kiếm nguồn dữ liệu chất lượng để đào tạo cho các mô hình AI của mình, và đây cũng là thời điểm nhưng tranh cãi xuất hiện. Tuần trước, có thông tin cho biết Reddit đã quyết định chặn các công cụ tìm kiếm truy cập dữ liệu của mình, trừ khi chấp nhận trả phí. Trong danh sách này bao gồm cả Bing của Microsoft. Cho đến nay, chỉ có công cụ tìm kiếm của Google được xác nhận là có trả tiền cho Reddit để có quyền truy cập vào dữ liệu của diễn đàn này.
Trong một bài đăng trên X vào đầu tuần này, giám đốc phụ trách mảng công cụ tìm kiếm của Microsoft, Jordi Ribas, tuyên bố rằng công ty của ông "đã cung cấp cho tất cả các nhà xuất bản bao gồm Reddit quyền kiểm soát thu thập thông tin của quản trị viên web vào tháng 9 năm 2023". Ngay cả như vậy, Ribas đã tuyên bố trong một bài đăng tiếp theo rằng Reddit vẫn quyết định chặn Bing khỏi dữ liệu của diễn đàn, và điều này đã “tác động đến sự cạnh tranh từ Bing cũng như các công cụ khác dựa trên Bing".
Hôm nay, trong một cuộc phỏng vấn mới trên The Verge, CEO Reddit Steve Huffman cũng đã chia sẻ thêm về câu chuyện này. Vị CEO tuyên bố rằng Microsoft đã lấy dữ liệu từ Reddit và sử dụng để đào tạo dịch vụ AI của của họ, cùng với việc tóm tắt nội dung từ Reddit trong công cụ tìm kiếm Bing "mà hoàn toàn không xin phép hay có bất cứ thông báo nào".
Huffman nói thêm rằng có hai công ty AI khác là Anthropic và Perplexity cũng đang đào tạo hệ thống của họ thông qua dữ liệu của Reddit. Ông tuyên bố:
Chúng ta đã thấy Microsoft, Anthropic và Perplexity hành động như thể mọi nội dung trên internet đều miễn phí để họ sử dụng... Đó chính là vấn đề thực sự.
Nhận định của CEO Reddit không phải không có cơ sở. Giám đốc phụ trách mảng AI của Microsoft Mustafa Suleyman gần đây đã chia sẻ quan điểm trong một cuộc phỏng vấn rằng về việc sử dụng dữ liệu thu thập từ bất cứ đâu trên internet để đào tạo AI là điều bình thường. "Bất kỳ ai cũng có thể sao chép, tái tạo, tái sản xuất bằng dữ liệu. Đó là "phần mềm miễn phí", đó là sự hiểu biết chung của nhân loại".
Steve Huffman chia sẻ "thật là phiền phức khi phải chặn những công ty này". Tuy nhiên, ông cảm thấy rằng ý tưởng về một công cụ tìm kiếm lấy nội dung từ một trang web và sử dụng lại mà không có bất kỳ khoản bồi thường nào là bất hợp lý, đồng thời nói thêm rằng "giá trị trao đổi của việc thu thập dữ liệu để đổi lấy lưu lượng truy cập trở lại đang trở nên mơ hồ".
Bạn có suy nghĩ thế nào về vấn đề này? Hãy để lại ý kiến bình luận nhé!