ChatGPT của OpenAI sử dụng trình thu thập dữ liệu để quét các trang web. Tuy nhiên, nếu bạn là chủ sở hữu trang web và không muốn OpenAI thu thập nội dung trên web của mình, thì dưới đây là một số việc bạn có thể làm để ngăn chặn điều đó.
Cách thức thu thập thông tin của OpenAI
Web crawler - Trình thu thập thông tin web (còn được gọi là trình thu thập dữ liệu hoặc bot công cụ tìm kiếm) là một chương trình tự động quét tìm thông tin trên internet. Sau đó, nó biên dịch thông tin đó theo cách mà công cụ tìm kiếm của bạn dễ dàng truy cập.
Trình thu thập dữ liệu web lập chỉ mục mọi trang của mỗi URL có liên quan, thường tập trung vào các trang web có câu trả lời cho truy vấn tìm kiếm của bạn. Giả sử bạn đang tìm lỗi cụ thể của Windows trên Google. Trình thu thập dữ liệu web trong công cụ tìm kiếm sẽ quét tất cả các URL từ các trang web mà nó cho là đáng tin cậy hơn về chủ đề lỗi Windows.
Trình thu thập dữ liệu web của OpenAI được gọi là GPTBot. Theo tài liệu của OpenAI, việc cấp cho GPTBot quyền truy cập vào trang web của bạn có thể giúp đào tạo mô hình AI trở nên an toàn hơn và chính xác hơn, thậm chí nó có thể giúp mở rộng khả năng của mô hình AI.
Cách ngăn OpenAI lấy dữ liệu web của bạn
Giống như hầu hết các trình thu thập dữ liệu web khác, GPTBot có thể bị chặn truy cập trang web của bạn bằng cách sửa đổi giao thức robots.txt của web. Tệp .txt này được lưu trữ trên máy chủ web. Nó kiểm soát cách thức hoạt động của trình thu thập dữ liệu web cũng như các chương trình tự động khác trên trang của bạn.
Về cơ bản, robot.txt có thể:
- Chặn hoàn toàn GPTBot truy cập web của bạn.
- Không cho GPTBot truy cập một số trang cụ thể từ một URL.
- Cho GPTBot biết link nào nó có thể theo dõi và link nào không.
Sau đây là cách kiểm soát GPTBot có thể làm trên web của bạn:
Chặn hoàn toàn BPTBot truy cập web của bạn
- Thiết lập file robot.txt, rồi chỉnh sửa nó bằng công cụ chỉnh sửa bất kỳ.
- Thêm GPTBot vào robots.txt của trang như sau:
User-agent: GPTBot
Disallow: /
Chỉ chặn các trạng nhất định, không cho GPTBot truy cập
- Thiết lập file robot.txt, rồi chỉnh sửa nó bằng công cụ chỉnh sửa văn bản yêu thích.
- Thêm GPTBot cho robots.txt của trang như sau:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Tuy nhiên, nhớ rằng thay đổi file robot.txt không phải một giải pháp có hiệu lực hoàn lại và mọi thông tin mà GPTBot có thể đã thu thập từ trang web của bạn sẽ không thể phục hồi được.