Nvidia lại bị cáo buộc thu thập dữ liệu AI từ Netflix và YouTube

Theo một báo cáo đang nhận được rất nhiều sự chú ý từ 404 Media, Nvidia đã có hành vi lén lút thu thập nội dung video từ các nguồn trực tuyến như Netflix và YouTube để sử dụng cho các sản phẩm trí tuệ nhân tạo của mình mà hoàn toàn không xin phép.

Kết luận này được đưa ra sau khi 404 Media thu thập được với nguồn thông tin rò rỉ từ các cuộc trò chuyện nội bộ của Nvidia trên Slack, email và tài liệu nội bộ của hãng. Nvidia đã tự giúp mình có được "trải nghiệm hình ảnh tương đương với dữ liệu đào tạo trong suốt cuộc đời con người mỗi ngày", Ming-Yu Liu, phó chủ tịch phụ trách nghiên cứu tại Nvidia kiêm trưởng nhóm dự án Cosmos, thừa nhận trong một email vào tháng 5. Dự án Cosmos này nhằm mục đích xây dựng một mô hình ngôn ngữ lớn mang tính nền tảng cho Nvidia, tương tự như các dự án Gemini 1.5 của Google, OpenAI GPT-4 hay Llama 3.1 của Meta.

Các cựu nhân viên giấu tên của Nvidia nói với 404 Media rằng họ đã được yêu cầu thu thập nội dung video từ Netflix, YouTube và các nguồn trực tuyến lớn khác, biến chúng thành dữ liệu đào tạo để sử dụng với các sản phẩm AI khác nhau của công ty.

Để thực hiện điều này, dự án Cosmos được cho là đã sử dụng một trình download video nguồn mở và sử dụng máy học để xử lý IP, do đó tránh được các nỗ lực chặn của YouTube. Theo thông tin rò rỉ, các nhà quản lý dự án đã thảo luận về việc sử dụng tới 30 máy ảo chạy trên Amazon Web Services để tải xuống một lượng video có thời lượng tương đương khoảng 80 năm, cùng vô số clip riêng lẻ mỗi ngày. Khi những nhân viên này thắc mắc về tính hợp pháp của dự án Cosmos, ban lãnh đạo công ty đảm bảo rằng họ đã được các đối tác cho phép sử dụng nội dung đó.

Về phần mình, Nvidia tuyên bố không có hành vi sai trái nào. "Chúng tôi tôn trọng quyền của tất cả những người sáng tạo nội dung và tin tưởng rằng các mô hình và nỗ lực nghiên cứu của chúng tôi tuân thủ đầy đủ theo đúng nghĩa đen và tinh thần của luật bản quyền", một phát ngôn viên của Nvidia đã nói với 404 Media qua email. "Luật bản quyền bảo vệ các biểu đạt cụ thể nhưng không bảo vệ các sự kiện, ý tưởng, dữ liệu hoặc thông tin. Bất kỳ ai cũng có quyền tự do tìm hiểu các sự kiện, ý tưởng, dữ liệu hoặc thông tin từ một nguồn khác và sử dụng chúng để tạo ra các biểu đạt của riêng họ. Sử dụng hợp lý cũng bảo vệ khả năng sử dụng một tác phẩm cho mục đích chuyển đổi, chẳng hạn như đào tạo mô hình AI".

Đây không phải là lần đầu tiên Nvidia (chưa kể đến phần lớn các công ty còn lại trong lĩnh vực AI) áp dụng cách làm theo kiểu "tiền trảm hậu tấu" trong việc thu thập dữ liệu đào tạo AI của mình. Vào tháng 7, Nvidia cũng đã bị réo tên trong một báo cáo khác về việc thu thập bất hợp pháp các video có bản quyền làm dữ liệu training AI.

Tại CES 2024, Nvidia đã gây tranh cãi với những câu trả lời mơ hồ về cách thức đào tạo công cụ AI tạo sinh mới cho trò chơi. Đáp lại, công ty khẳng định lại rằng các công cụ của họ "an toàn về mặt thương mại". Nhưng sự thật thế nào? Hãy cùng chờ xem!

Thứ Sáu, 09/08/2024 15:45
31 👨 4
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ