Apple, Nvidia, và nhiều công ty lớn vướng bê bối đào tạo AI bằng các nguồn YouTube gây tranh cãi

Phạm Hải

Nhiều công ty công nghệ lớn, bao gồm Apple, Nvidia, Salesforce và Anthrophic, đang vướng vào một cuộc tranh cãi mới liên quan đến dữ liệu đào tạo AI. Theo báo cáo do ProofNews công bố, tập dữ liệu được các công ty này sử dụng để đào tạo các mô hình AI nội bộ của họ bao gồm phụ đề từ video YouTube.

Tập dữ liệu có tiêu đề "YouTube Subtitles", được tạo bởi EleutherAI và xuất bản vào năm 2020. Bên trong bộ dữ liệu là phụ đề từ 173.536 video YouTube được tải xuống từ hơn 48.000 kênh khác nhau.

Vấn đề nằm ở chỗ tập dữ liệu dường như đã đi ngược lại các điều khoản và điều kiện của YouTube, đó là cấm truy cập video bằng "phương tiện tự động". Theo ProofNews, YouTube Subtitles là tập dữ liệu đào tạo có dung lượng 5,7 GB (489 triệu từ) và bao gồm phụ đề từ hơn 12.000 video đã bị xóa khỏi nền tảng. Đáng chú ý, trong tập dữ liệu này có phụ đề video của nhiều nhà sáng tạo nội dung nổi tiếng trên YouTube, với lượng người đăng ký đông đảo:

Proof News đã tìm thấy tài liệu từ các nhà sáng tạo nổi tiếng trên YouTube, bao gồm MrBeast (289 triệu người đăng ký, 2 video), Marques Brownlee (19 triệu người đăng ký, 7 video), Jacksepticeye (gần 31 triệu người đăng ký, 377 video) và PewDiePie (111 triệu người đăng ký, 337 video). Trong đó, có không ít tài liệu được sử dụng để đào tạo AI có chứa nội dung không phù hợp, thậm chí có cả thuyết âm mưu”.

Đào tạo AI bằng các nguồn YouTube

Trên thực tế, tập dữ liệu “YouTube Subtitles” này thuộc một nhóm có tên "The Pile", bao gồm một số tập dữ liệu đào tạo khác. Hầu hết các bộ dữ liệu của Pile đều mở cho bất kỳ ai có đủ dung lượng và khả năng tính toán để truy cập.

Các công ty được nêu tên đã không trả lời yêu cầu bình luận của báo chí về những phát hiện và cáo buộc về việc sử dụng dữ liệu đào tạo phép. ProofNews đã tìm kiếm thông qua các bài đăng trực tuyến và sách trắng để tìm bằng chứng và xác định tài liệu sáng tạo của ai đã được sử dụng để đào tạo các mô hình AI cụ thể nào. Tuy nhiên, rất khá để tạo danh sách đầy đủ các công ty sử dụng bộ dữ liệu này, vì các công ty AI thường không tiết lộ dữ liệu họ sử dụng để đào tạo mô hình.

Marques Brownlee, một trong những nhà sáng tạo có nội dung bị sử dụng trái phép cho biết anh đã trả phí để sử dụng tính năng tạo bản ghi phụ đề trên YouTube. Vì vậy, việc các công ty sử dụng loại dữ liệu này mà không xin phép hay trả phí là một hành vi “vi phạm trắng trợn”.

Lưu ý rằng Apple và các công ty công nghệ khác không tự download phụ đề mà đã đào tạo các mô hình AI của họ bằng cách sử dụng phụ đề đó. Tuy nhiên, hành động này là một ví dụ về những hậu quả không mong muốn của AI. Một số nhà sáng tạo nói rằng họ không chắc chắn về khả năng AI có thể được sử dụng để bắt chước nội dung của họ trong tương lai.

Chủ Nhật, 21/07/2024 09:34

3 ★ 1 👨 100

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Chuyện công nghệ

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

Apple, Nvidia, và nhiều công ty lớn vướng bê bối đào tạo AI bằng các nguồn YouTube gây tranh cãi

Phạm Hải

Bạn nên đọc

Chiếc điện thoại Android này vừa phá kỷ lục về thời lượng pin trên smartphone

CSCĐ - Vietnam Mobile Police: Tựa game bắn súng Việt chính thức đặt chân lên Steam

Bkav công bố BkavGPT, giải quyết được vấn đề mà OpenAI, Google đang gặp phải

Vì sao không thể “thu hồi” AI như một loại thuốc lỗi: thách thức quản lý AI toàn cầu

Trải nghiệm tự thay pin iPhone tại nhà với bộ công cụ trong 2 chiếc vali nặng 35 kg của Apple

Phát hiện bất ngờ về Wi-Fi mà chúng ta dùng lướt web hàng ngày

Cũ vẫn chất

Cách tạo checkbox trong Google Sheets

Top ứng dụng iOS đang miễn phí, giảm giá 11/04/2026

Cách tắt Research trong Excel

Công thức tính Diện tích hình vuông, tính Chu vi hình vuông

Hàm DATEDIFF trong SQL Server

Cách mở và chạy cmd với quyền Admin trên Windows

Cách hạn chế bạn bè trên Facebook xem bài đăng của bạn

15+ IDE Python phổ biến năm 2026

Cách khóa công thức trên Excel

Cách xóa chữ trên ảnh bằng Photoshop