OpenAI phiên âm hàng triệu giờ video YouTube để đào tạo GPT-4

Phạm Hải

Trong nỗ lực bảo mật dữ liệu chất lượng cao để đào tạo các mô hình trí tuệ nhân tạo khổng lồ, những công ty AI lớn như OpenAI, Google và Meta hiện đang đẩy mạnh sử dụng các chiến thuật thu thập dữ liệu “mờ ám”. Một báo cáo của New York Times gầy đây cho biết OpenAI đã cố tình sao chép hơn một triệu giờ video YouTube thành dữ liệu để đào tạo mô hình ngôn ngữ lớn (LLM) tiên tiến nhất của mình: GPT-4.

Theo đó, OpenAI đã phát triển mô hình sao chép âm thanh Whisper, giúp công ty thu thập dữ liệu từ video YouTube. NY Times đưa tin rằng OpenAI hoàn toàn biết phương pháp này có thể bị giám sát chặt chẽ, nhưng vẫn tiếp tục thực hiện vì họ tin rằng việc sử dụng là hoàn toàn hợp pháp. Điều thú vị là Google, công ty sở hữu YouTube, cũng bị cáo buộc có liên quan đến hoạt động tương tự đối với các mô hình AI của mình, tức là trực tiếp vi phạm bản quyền của người tạo ra video.

Đồng quan điểm với NY Times, báo cáo của The Information nhấn mạnh rằng OpenAI đã loại bỏ dữ liệu từ video và podcast trên YouTube để đào tạo hai hệ thống AI của mình, đồng thời úp mở rằng chủ tịch OpenAI, Greg Brockman, cũng đã biết và đồng tình với cách làm này.

Trong một cuộc phỏng vấn mới đây với Bloomberg, Giám đốc điều hành YouTube, Neil Mohan, nói rằng chính sách của công ty "không cho phép tải xuống những nội dung như bản ghi hoặc bit video, và đó là sự vi phạm rõ ràng các điều khoản dịch vụ của chúng tôi". Tuy nhiên, khi được hỏi liệu dữ liệu YouTube có đang bị OpenAI “lạm dụng” hay không, vị CEO chỉ đưa ra câu trả lời tương đối mơ hồ: "Tôi đã thấy các báo cáo cho thấy dữ liệu của YouTube có thể đã được sử dụng hoặc không. Bản thân tôi không có thông tin gì cả".

Báo cáo của NY Times tuyên bố thêm rằng một số nhân sự của Google đã nắm được thông tin về hoạt động sao chép dữ liệu YouTube của OpenAI, nhưng họ không thể làm bất cứ điều gì vì bản thân công ty Mountain View cũng sử dụng phương pháp tương tự để đào tạo các mô hình AI của riêng mình. Tuy nhiên, Google đã nói với The NY Times rằng họ chỉ thực hiện việc thu thập dữ liệu video sau khi người tạo video đã đồng ý.

Thậm chí, Google còn được cho là đã "điều chỉnh chính sách quyền riêng tư" vào tháng 6 năm 2023, "để cho phép khai thác dữ liệu Google Docs có sẵn công khai, các đánh giá trên Google Maps và nhiều loại tài liệu trực tuyến khác để đào tạo các sản phẩm A.I. của công ty".

Thứ Sáu, 26/04/2024 07:26

3 ★ 1 👨 128

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!

0 Bình luận

Sắp xếp theo

Xóa Đăng nhập để Gửi

Chuyện công nghệ

Cũ vẫn chất

Xem thêm

Giấy phép số 362/GP-BTTTT. Bộ Thông tin và Truyền thông cấp ngày 30/06/2016. Cơ quan chủ quản: CÔNG TY CỔ PHẦN MẠNG TRỰC TUYẾN META. Địa chỉ: 56 Duy Tân, Phường Cầu Giấy, Hà Nội. Điện thoại: 024 2242 6188. Email: info@meta.vn. Chịu trách nhiệm nội dung: Lê Ngọc Lam.

OpenAI phiên âm hàng triệu giờ video YouTube để đào tạo GPT-4

Phạm Hải

Bạn nên đọc

Bão Mặt Trời có thể đánh sập hệ thống Internet toàn cầu

Trung Quốc gấp rút chuẩn bị hệ điều hành riêng trong bối cảnh doanh số Mac tăng mạnh

Ưu và nhược điểm của Internet

Tương lai robot sẽ thay đổi như thế nào khi có 6G?

Thời điểm Microsoft ngừng hỗ trợ các phiên bản Windows 10 và những thông tin cần biết

Trải nghiệm tự thay pin iPhone tại nhà với bộ công cụ trong 2 chiếc vali nặng 35 kg của Apple

Cũ vẫn chất

Hướng dẫn 5 cách chuyển số thành chữ trong Excel

Những bài thơ tán gái theo tên, thơ làm quen bạn gái vừa duyên vừa mặn

Công thức tính diện tích xung quanh hình nón, diện tích toàn phần hình nón, thể tích hình nón, V nón

6 cách siêu dễ thêm phụ đề, caption vào video

Cap đi du lịch hay, stt du lịch hay giúp bạn ghi lại nhật ký hành trình của mình

Cách tạo Slide Master trên PowerPoint

Những ứng dụng hoán đổi khuôn mặt tốt nhất

Cách sửa lỗi gõ tiếng Việt trên Word, Excel

Cách tính điểm trung bình môn HK 1, HK 2, cả năm

Cách tạo bảng trong Canva