OpenAI ghi lại hơn một triệu giờ video trên YouTube để đào tạo GPT-4

Minh Mũm Mĩm

Các công ty trí tuệ nhân tạo (AI) đang gặp khó khăn trong việc thu thập dữ liệu đào tạo chất lượng cao.Tờ The New York Times đã nêu chi tiết một số cách mà các công ty đã xử lý trong vấn đề này. Không ngạc nhiên khi nó liên quan đến việcrơi vào vùng mơ hồ của luật bản quyền AI.

Câu chuyện mở đầu với OpenAI, công ty đang rất "khát" dữ liệu đào tạo cho AI, được cho là phát triển mô hình chuyển đổi âm thanh Whisper của mình để vượt qua trở ngại này, bằng cách ghi lại hơn một triệu giờ video trên Youtube để đào tạo GPT-4, hình trí tuệ nhân tạo lớn nhất và tiên tiến nhất của công ty.

Báo cáo cho biết rằng công ty biết đây là một vấn đề pháp lý nhưng tin rằng đó là cách sử dụng dữ liệu hợp lý. Chủ tịch OpenAI Greg Brockman đã tham gia thu thập các video được sử dụng, theo tờ The Times.

openai youtube

Người phát ngôn của OpenAI, Lindsay Held, cho biết công ty đang tổ chức sắp xếp các tập dữ liệu "duy nhất" cho mỗi mô hình của mình để "giúp chúng hiểu thêm về thế giới" và duy trì tính cạnh tranh nghiên cứu toàn cầu của mình. Held cũng chia sẻ thêm rằng công ty sử dụng "nhiều nguồn dữ liệu bao gồm dữ liệu có sẵn công khai và các đối tác cung cấp dữ liệu không công khai," và công ty đang xem xét việc tạo ra dữ liệu tổng hợp riêng của mình.

Bài viết của The Times cho biết công ty đã cạn kiệt nguồn cung cấp dữ liệu hữu ích vào năm 2021, và thảo luận về việc ghi lại video trên YouTube, podcast và sách nói sau khi đã sử dụng hết các nguồn lực khác. Kể từ đó, họ đã đào tạo các mô hình của mình trên dữ liệu bao gồm mã máy tính từ Github, cơ sở dữ liệu cho việc chơi cờ vua và nội dung học tập từ Quizlet.

Matt Bryant, người phát ngôn của Google, cho biết rằng công ty đã "nhìn thấy các báo cáo chưa được xác nhận" về hoạt động của OpenAI. Anh cũng nói thêm rằng "cả hai tệp robots.txt và Điều khoản Dịch vụ của chúng tôi cấm việc thu thập dữ liệu hoặc tải video trên YouTube mà không được phép," đã trùng với các điều khoản sử dụng của công ty.

openai youtube

Giám đốc điều hành YouTube Neal Mohan đã nói những điều tương tự về khả năng OpenAI đã sử dụng YouTube để đào tạo mô hình tạo video AI - Sora trong tuần này. Bryant nói rằng "Google sẽ thực hiện các biện pháp kỹ thuật và pháp lý để ngăn chặn việc sử dụng trái phép dữ liệu khi chúng tôi có cơ sở pháp lý hoặc kỹ thuật rõ ràng để chứng minh đó là dữ liệu cho riêng công cụ AI của chúng tôi."

Google cũng đã thu thập thêm nội dung từ YouTube, Bryant cho biết công ty đã đào tạo các mô hình của mình dựa trên một số nội dung trên YouTube, theo thỏa thuận của Google với các nhà sáng tạo trên YouTube.

Phòng pháp lý của Google đã yêu cầu bộ phận bảo mật của công ty điều chỉnh ngôn ngữ chính sách của mình để mở rộng những gì nó có thể làm với dữ liệu người tiêu dùng, chẳng hạn với như các công cụ văn phòng như Google Docs. Theo nguồn tin của báo, chính sách mới được phát hành vào ngày 1 tháng 7, trùng với kỳ nghỉ Lễ Độc Lập.

openai youtube

Bên cạnh Open AI, Meta cũng gặp khó khăn trong việc có được dữ liệu đào tạo chất lượng cho công cụ trí tuệ nhân tạo của mình. Nhóm AI của công ty đã thảo luận về việc sử dụng không được phép các tác phẩm có bản quyền trong khi đang cố gắng bắt kịp OpenAI.

Sau khi đã xem xét "gần như mọi cuốn sách tiếng Anh có sẵn, bài luận, thơ và bài báo trên internet," thì Meta dường như đã xem xét đến các bước như trả tiền để mua bản quyền sách hoặc thậm chí mua luôn cả một nhà xuất bản lớn.

Google, OpenAI và những ông lớn công nghệ đào tạo AI đang đấu tranh với việc giành giật dữ liệu đào tạo cho mô hình của họ. Mà mô hình càng hấp thụ nhiều dữ liệu thì chúng càng trở nên tốt hơn. The Journal viết trong tuần này rằng các công ty có thể vượt qua nội dung mới vào năm 2028.

Chủ Nhật, 07/04/2024 22:01

4 ★ 1 👨 105

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

OpenAI ghi lại hơn một triệu giờ video trên YouTube để đào tạo GPT-4

Minh Mũm Mĩm

Bạn nên đọc

Hướng dẫn chuyển file PDF kiểm tra thành slide bài giảng bằng Gemini

Train-to-Test Scaling là gì? Cách tối ưu chi phí AI từ training đến inference

Cách tạo sổ ghi chú mới ngay trong Gemini

Hướng dẫn tạo website cơ bản trên Cursor

Cách tạo website cơ bản trên Cursor

Nếu AI có thể làm mọi thứ, tại sao chúng ta vẫn cần học?

Cũ vẫn chất

Hướng dẫn 5 cách chuyển số thành chữ trong Excel

Cách tạo bảng trong Canva

Những bài thơ tán gái theo tên, thơ làm quen bạn gái vừa duyên vừa mặn

Cách tạo Slide Master trên PowerPoint

Công thức tính diện tích xung quanh hình nón, diện tích toàn phần hình nón, thể tích hình nón, V nón

Những ứng dụng hoán đổi khuôn mặt tốt nhất

Cap đi du lịch hay, stt du lịch hay giúp bạn ghi lại nhật ký hành trình của mình

Cách tính điểm trung bình môn HK 1, HK 2, cả năm

6 cách siêu dễ thêm phụ đề, caption vào video

Cách sửa lỗi gõ tiếng Việt trên Word, Excel