Nhiều công ty công nghệ lớn, bao gồm Apple, Nvidia, Salesforce và Anthrophic, đang vướng vào một cuộc tranh cãi mới liên quan đến dữ liệu đào tạo AI. Theo báo cáo do ProofNews công bố, tập dữ liệu được các công ty này sử dụng để đào tạo các mô hình AI nội bộ của họ bao gồm phụ đề từ video YouTube.
Tập dữ liệu có tiêu đề "YouTube Subtitles", được tạo bởi EleutherAI và xuất bản vào năm 2020. Bên trong bộ dữ liệu là phụ đề từ 173.536 video YouTube được tải xuống từ hơn 48.000 kênh khác nhau.
Vấn đề nằm ở chỗ tập dữ liệu dường như đã đi ngược lại các điều khoản và điều kiện của YouTube, đó là cấm truy cập video bằng "phương tiện tự động". Theo ProofNews, YouTube Subtitles là tập dữ liệu đào tạo có dung lượng 5,7 GB (489 triệu từ) và bao gồm phụ đề từ hơn 12.000 video đã bị xóa khỏi nền tảng. Đáng chú ý, trong tập dữ liệu này có phụ đề video của nhiều nhà sáng tạo nội dung nổi tiếng trên YouTube, với lượng người đăng ký đông đảo:
Proof News đã tìm thấy tài liệu từ các nhà sáng tạo nổi tiếng trên YouTube, bao gồm MrBeast (289 triệu người đăng ký, 2 video), Marques Brownlee (19 triệu người đăng ký, 7 video), Jacksepticeye (gần 31 triệu người đăng ký, 377 video) và PewDiePie (111 triệu người đăng ký, 337 video). Trong đó, có không ít tài liệu được sử dụng để đào tạo AI có chứa nội dung không phù hợp, thậm chí có cả thuyết âm mưu”.
Trên thực tế, tập dữ liệu “YouTube Subtitles” này thuộc một nhóm có tên "The Pile", bao gồm một số tập dữ liệu đào tạo khác. Hầu hết các bộ dữ liệu của Pile đều mở cho bất kỳ ai có đủ dung lượng và khả năng tính toán để truy cập.
Các công ty được nêu tên đã không trả lời yêu cầu bình luận của báo chí về những phát hiện và cáo buộc về việc sử dụng dữ liệu đào tạo phép. ProofNews đã tìm kiếm thông qua các bài đăng trực tuyến và sách trắng để tìm bằng chứng và xác định tài liệu sáng tạo của ai đã được sử dụng để đào tạo các mô hình AI cụ thể nào. Tuy nhiên, rất khá để tạo danh sách đầy đủ các công ty sử dụng bộ dữ liệu này, vì các công ty AI thường không tiết lộ dữ liệu họ sử dụng để đào tạo mô hình.
Marques Brownlee, một trong những nhà sáng tạo có nội dung bị sử dụng trái phép cho biết anh đã trả phí để sử dụng tính năng tạo bản ghi phụ đề trên YouTube. Vì vậy, việc các công ty sử dụng loại dữ liệu này mà không xin phép hay trả phí là một hành vi “vi phạm trắng trợn”.
Lưu ý rằng Apple và các công ty công nghệ khác không tự download phụ đề mà đã đào tạo các mô hình AI của họ bằng cách sử dụng phụ đề đó. Tuy nhiên, hành động này là một ví dụ về những hậu quả không mong muốn của AI. Một số nhà sáng tạo nói rằng họ không chắc chắn về khả năng AI có thể được sử dụng để bắt chước nội dung của họ trong tương lai.