OpenAI ghi lại hơn một triệu giờ video trên YouTube để đào tạo GPT-4

Các công ty trí tuệ nhân tạo (AI) đang gặp khó khăn trong việc thu thập dữ liệu đào tạo chất lượng cao.Tờ The New York Times đã nêu chi tiết một số cách mà các công ty đã xử lý trong vấn đề này. Không ngạc nhiên khi nó liên quan đến việcrơi vào vùng mơ hồ của luật bản quyền AI.

Câu chuyện mở đầu với OpenAI, công ty đang rất "khát" dữ liệu đào tạo cho AI, được cho là phát triển mô hình chuyển đổi âm thanh Whisper của mình để vượt qua trở ngại này, bằng cách ghi lại hơn một triệu giờ video trên Youtube để đào tạo GPT-4,  hình trí tuệ nhân tạo lớn nhất và tiên tiến nhất của công ty.

Báo cáo cho biết rằng công ty biết đây là một vấn đề pháp lý nhưng tin rằng đó là cách sử dụng dữ liệu hợp lý. Chủ tịch OpenAI Greg Brockman đã tham gia thu thập các video được sử dụng, theo tờ The Times.

openai youtube

Người phát ngôn của OpenAI, Lindsay Held, cho biết công ty đang tổ chức sắp xếp các tập dữ liệu "duy nhất" cho mỗi mô hình của mình để "giúp chúng hiểu thêm về thế giới" và duy trì tính cạnh tranh nghiên cứu toàn cầu của mình. Held cũng chia sẻ thêm rằng công ty sử dụng "nhiều nguồn dữ liệu bao gồm dữ liệu có sẵn công khai và các đối tác cung cấp dữ liệu không công khai," và công ty đang xem xét việc tạo ra dữ liệu tổng hợp riêng của mình.

Bài viết của The Times cho biết công ty đã cạn kiệt nguồn cung cấp dữ liệu hữu ích vào năm 2021, và thảo luận về việc ghi lại video trên YouTube, podcast và sách nói sau khi đã sử dụng hết các nguồn lực khác. Kể từ đó, họ đã đào tạo các mô hình của mình trên dữ liệu bao gồm mã máy tính từ Github, cơ sở dữ liệu cho việc chơi cờ vua và nội dung học tập từ Quizlet.

Matt Bryant, người phát ngôn của Google, cho biết rằng công ty đã "nhìn thấy các báo cáo chưa được xác nhận" về hoạt động của OpenAI. Anh cũng nói thêm rằng "cả hai tệp robots.txt và Điều khoản Dịch vụ của chúng tôi cấm việc thu thập dữ liệu hoặc tải video trên YouTube mà không được phép," đã trùng với các điều khoản sử dụng của công ty.

openai youtube

Giám đốc điều hành YouTube Neal Mohan đã nói những điều tương tự về khả năng OpenAI đã sử dụng YouTube để đào tạo mô hình tạo video AI - Sora trong tuần này. Bryant nói rằng "Google sẽ thực hiện các biện pháp kỹ thuật và pháp lý để ngăn chặn việc sử dụng trái phép dữ liệu khi chúng tôi có cơ sở pháp lý hoặc kỹ thuật rõ ràng để chứng minh đó là dữ liệu cho riêng công cụ AI của chúng tôi."

Google cũng đã thu thập thêm nội dung từ YouTube, Bryant cho biết công ty đã đào tạo các mô hình của mình dựa trên một số nội dung trên YouTube, theo thỏa thuận của Google với các nhà sáng tạo trên YouTube.

Phòng pháp lý của Google đã yêu cầu bộ phận bảo mật của công ty điều chỉnh ngôn ngữ chính sách của mình để mở rộng những gì nó có thể làm với dữ liệu người tiêu dùng, chẳng hạn với như các công cụ văn phòng như Google Docs. Theo nguồn tin của báo, chính sách mới được phát hành vào ngày 1 tháng 7, trùng với kỳ nghỉ Lễ Độc Lập.

openai youtube

Bên cạnh Open AI, Meta cũng gặp khó khăn trong việc có được dữ liệu đào tạo chất lượng cho công cụ trí tuệ nhân tạo của mình. Nhóm AI của công ty đã thảo luận về việc sử dụng không được phép các tác phẩm có bản quyền trong khi đang cố gắng bắt kịp OpenAI.

Sau khi đã xem xét "gần như mọi cuốn sách tiếng Anh có sẵn, bài luận, thơ và bài báo trên internet," thì Meta dường như đã xem xét đến các bước như trả tiền để mua bản quyền sách hoặc thậm chí mua luôn cả một nhà xuất bản lớn.

Google, OpenAI và những ông lớn công nghệ đào tạo AI đang đấu tranh với việc giành giật dữ liệu đào tạo cho mô hình của họ. Mà mô hình càng hấp thụ nhiều dữ liệu thì chúng càng trở nên tốt hơn. The Journal viết trong tuần này rằng các công ty có thể vượt qua nội dung mới vào năm 2028.

Chủ Nhật, 07/04/2024 22:00
41 👨 92
0 Bình luận
Sắp xếp theo
    ❖ Trí tuệ nhân tạo (AI)