Năm 2024 là năm bùng nổ của AI, với hàng loạt mô hình ngôn ngữ lớn (LLM) ra mắt và dần trở thành một phần thiết yếu trong đời sống công nghệ của nhiều người.
Tuy nhiên, các công ty trí tuệ nhân tạo (AI) đang gặp khó khăn trong việc thu thập dữ liệu đào tạo chất lượng cao. Nói cách khác, nhiều công ty đang rất "khát" dữ liệu đào tạo cho những mô hình AI quy mô lớn của mình. Thực tế là nhiều công ty công nghệ lớn, bao gồm Apple, Nvidia, Salesforce và Anthrophic, đang vướng vào một cuộc tranh cãi mới liên quan đến dữ liệu đào tạo AI, mà tròn đó nổi bật nhất là những cáo buộc sử dụng nội dung video khổng lồ, phong phú của YouTube để đào tạo AI, gây ảnh hưởng nghiêm trọng đến vấn đề bản quyền nội dung số.
Để giải quyết những lo ngại này, YouTube sẽ trao cho người sáng tạo nhiều quyền kiểm soát hơn đối với cách các công ty bên thứ ba có thể sử dụng nội dung của họ để đào tạo AI. Thông cáo chính thức từ Team YouTube như sau:
Trong vài ngày tới, chúng tôi sẽ triển khai bản cập nhật cho phép nhà sáng tạo và chủ sở hữu bản quyền video có thể chọn cho phép các công ty bên thứ ba sử dụng nội dung của mình để đào tạo các mô hình AI. Tùy chọn này sẽ xuất hiện trực tiếp trong Cài đặt Studio ở mục 'Đào tạo của bên thứ ba'.
Bằng cách bật tính năng này, người sáng tạo sẽ cấp quyền cho các công ty như xAI, Apple, Amazon, Anthropic, Meta, Microsoft, Nvidia, OpenAI… sử dụng video của họ để đào tạo các mô hình AI tương ứng của những công ty này. Tuy nhiên, không phải tất cả các video đều đủ điều kiện. Để “được” chọn làm dữ liệu đào tạo AI, video phải đáp ứng các điều kiện sau:
- Người nắm giữ bản quyền của video cho phép bên thứ ba sử dụng video để đào tạo AI.
- Cài đặt quyền riêng tư của video là công khai.
- Video tuân thủ Điều khoản dịch vụ và Nguyên tắc cộng đồng của YouTube.
Nhưng có vẻ như nhiều người không mấy vui vẻ khi các công ty công nghệ lớn sử dụng nội dung của họ để đào tạo các mô hình AI. Lấy người dùng Bluesky làm ví dụ. Cộng đồng người dùng nền tảng mạng xã hội đã bày tỏ sự tức giận trước trường hợp một chuyên gia về máy học phát hành tập dữ liệu chứa một triệu bài đăng trên Bluesky.
Nhiều người dùng đã tham gia Bluesky để thoát khỏi các nền tảng như X (trước đây là Twitter), nơi xAI của Elon Musk sử dụng các bài đăng của người dùng để đào tạo AI của mình là Grok. Họ nghĩ rằng mình đã tìm thấy một không gian an toàn hơn, nhưng sự cố này khiến nhiều người nhận ra rằng ngay cả trên Bluesky, nội dung của họ vẫn có thể bị sử dụng mà không được sự đồng ý.
Tại Anh, gần 40 nhóm sáng tạo, bao gồm các nhà xuất bản, tác giả và nhiếp ảnh gia, đang thúc giục chính phủ thực thi các biện pháp bảo vệ bản quyền khi họ tham gia tham vấn về AI và các ngành công nghiệp sáng tạo. Liên minh Quyền sáng tạo trong AI (Creative Rights in AI Coalition) ủng hộ một thị trường cấp phép để cho phép sử dụng hợp lý nội dung sáng tạo trong AI tạo sinh, đảm bảo rằng người sáng tạo nội dung duy trì quyền kiểm soát đối với tác phẩm và thù lao của họ.
Vào tháng 8 năm 2024, các nghệ sĩ Hoa Kỳ đã giành chiến thắng trong một vụ kiện bản quyền AI mang tính bước ngoặt. Một thẩm phán quận đã phán quyết rằng những công ty như Stability AI, Midjourney, DeviantArt và Runway AI đã vi phạm bản quyền của nghệ sĩ khi sử dụng tác phẩm của họ mà không được phép để đào tạo các mô hình AI của riêng mình.