Hệ thống Generative AI được đào tạo bằng cách cho phép chúng lướt web để thu thập nội dung. Apple cho phép các nhà xuất bản từ chối thu thập và một báo cáo mới cho biết nhiều trang web lớn nhất đã từ chối đào tạo Apple Intelligence, bao gồm cả Facebook và Instagram, cũng như nhiều trang tin tức và phương tiện truyền thông nổi tiếng như The New York Times và The Atlantic…
Đào tạo AI của Apple
Các mô hình ngôn ngữ lớn như ChatGPT được đào tạo bằng cách cho chúng quyền truy cập vào hàng triệu từ của tài liệu nguồn, từ các câu chuyện tin tức đến bình luận của người dùng.
Trong trường hợp của Apple, trong nhiều năm, công ty đã sử dụng Applebot để đào tạo Siri và đưa ra các gợi ý Spotlight. Gần đây hơn, công ty cũng đã sử dụng Applebot để đào tạo Apple Intelligence.
Việc này gây tranh cãi vì AI thực sự đang sử dụng tài liệu có bản quyền để tạo ra các phiên bản của riêng chúng. Đối với các chủ đề chuyên sâu hơn, nơi tài liệu nguồn khan hiếm, chúng thậm chí còn được phát hiện là lặp lại toàn bộ các đoạn văn mà hầu như không có thay đổi nào được thực hiện.
Nhưng Apple thực hiện điều này theo cách có đạo đức, cho phép các nhà xuất bản từ chối và sàng lọc dữ liệu cá nhân (mặc dù đã bị một nguồn bên thứ ba phát hiện).
Chúng tôi đào tạo các mô hình nền tảng của mình trên dữ liệu được cấp phép, bao gồm dữ liệu được chọn để nâng cao các tính năng cụ thể, cũng như dữ liệu công khai do trình thu thập dữ liệu web của chúng tôi, AppleBot, thu thập. Các nhà xuất bản web có tùy chọn từ chối sử dụng nội dung web của họ để đào tạo Apple Intelligence bằng cách kiểm soát việc sử dụng dữ liệu […]
Chúng tôi áp dụng các bộ lọc để xóa thông tin nhận dạng cá nhân như số an sinh xã hội và số thẻ tín dụng có sẵn công khai trên Internet.
Apple sử dụng tag Applebot-Extended để cho phép các trang web từ chối đào tạo AI trong khi vẫn cho phép lập chỉ mục tìm kiếm - nghĩa là các bài viết của họ vẫn có thể được đưa vào tìm kiếm Spotlight và Siri.
Nhiều nhà xuất bản web lớn từ chối
Vì việc từ chối được thực hiện bằng file robots.txt có thể truy cập công khai nên rất dễ để xem những trang web nào đã thực hiện việc này. Wired đã kiểm tra một số trang tin tức và mạng xã hội lớn nhất.
WIRED có thể xác nhận rằng Facebook, Instagram, Craigslist, Tumblr, The New York Times, The Financial Times, The Atlantic, Vox Media, mạng lưới USA Today và công ty mẹ của WIRED, Condé Nast, nằm trong số nhiều tổ chức lựa chọn loại trừ dữ liệu của họ khỏi chương trình đào tạo AI của Apple […]
Trong một phân tích riêng được thực hiện vào tuần này, nhà báo dữ liệu Ben Welsh phát hiện ra rằng chỉ hơn một phần tư các trang web tin tức mà ông khảo sát (294 trong số 1.167 ấn phẩm chủ yếu bằng tiếng Anh, có trụ sở tại Hoa Kỳ) đang chặn Applebot-Extended.
Applebot-Extended là một tag tương đối mới, vì vậy có khả năng nhiều trang web cũng sẽ từ chối khi nhận thức tăng lên.
Tiền tất nhiên là một yếu tố
Người ta tin rằng Apple đã đạt được thỏa thuận với một số công ty media, trả một khoản phí để đổi lấy quyền sử dụng nội dung của họ cho mục đích đào tạo. Có khả năng đây là động lực khiến ít nhất một số trang web hiện đang chặn Apple để chờ đợi một đề nghị thanh toán.
Jon Gillham, người sáng lập Originality AI, cho biết: "Rõ ràng là nhiều nhà xuất bản lớn nhất thế giới đang áp dụng một cách tiếp cận chiến lược". “Tôi nghĩ trong một số trường hợp, có một chiến lược kinh doanh liên quan - như là giữ lại dữ liệu cho đến khi có thỏa thuận hợp tác”.
iOS 18.1 beta 3 bao gồm một số tính năng mới của Apple Intelligence, bao gồm Photo Clean Up và nhiều bản tóm tắt thông báo hơn.