Bảo vệ thông tin ‘nhạy cảm’ khỏi các chương trình tìm kiếm

Cụm từ “Robots” có thể bạn đã được nghe tới nhiều lần trong các bộ phim khoa học viễn tưởng. Tuy nhiên, nếu bạn sở hữu một trang web, bạn sẽ hiểu đây sẽ là một tệp tin rất quan trọng. Vậy vay trò của của Robots.txt là gì? Làm thế nào để sử dụng Robots.txt? Bài viết giúp bạn vén bớt một phần tấm màn “bí mật” xung quanh tệp tin này.

Khác các công cụ hỗ trợ tìm kiếm khác, tệp tin Robots.txt xác định những gì các cỗ máy tìm kiếm (search engine robot) không được phép “bén mảng”- bao gồm cả các cây thư mục hoặc các tệp tin cụ thể. Robots.txt còn xác định cả các chủng loại công cụ rò tìm thông tin trực tuyến nào được phép rà quét thông tin; ví dụ phần lọc và lưu trữ email, phần mềm “ngửi” nội dung (content sniffer), phần mềm tìm kiếm thông tin dạng thống kê v.v… (bạn có thể duyệt trang web robotstxt.org/wc/active.html để xem danh sách các chủng loại “robot” và tính năng của chúng). Như vậy, nhìn tổng thể vai trò của Robots.txt là chối bỏ quyền truy nhập của một số công cụ tìm kiếm thông tin trực tuyến, bảo vệ nhiều tệp tin nhà quản trị cần thiết phải để “online” nhưng lại không muốn ai cùng “chia sẻ”. Hầu hết các website không có tệp tin Robots.txt. Đương nhiên, không vì thế mà các trang web không vận hành bình thường hoặc ít được mọi người biết tới. Vậy lý do gì các nhà quản trị nên nhanh chóng tạo lập tệp tin Robots.txt?

Thứ nhất, không phải cỗ máy tìm kiếm nào cũng được triển khai với ý đồ tốt hoặc ít nhất là vô hại. Trên thực tế, số lượng lớn các cỗ máy rà quét thông tin để lượm lặt địa chỉ email- công đoạn đầu tiên trong chiến dịch gửi thư rác hàng loạt (spam).

Thứ hai, website của bạn có lẽ chưa hoàn thiện và có những thông tin bạn chưa thể ngay lập tức tung ra. Cụ thể, một đường dẫn “không dẫn tới đâu cả” có thể để lại ấn tượng xấu đối với người truy nhập.

Thứ ba, website của bạn có khu vực dành riêng cho thành viên đăng nhập (có thể tính phí) và bạn không muốn bất cứ công cụ tìm kiếm nào bén mảng tới- Robots.txt là cách duy nhất bạn có thể chặn đứng các ‘spider’.

Thứ tư, bạn muốn giữ một số tệp tin “bí mật” (có thể là các thông tin cá nhân). Những tệp tin này không có đường dẫn liên kết tới nhưng lại chứa các đường dẫn liên kết ra bên ngoài. Nếu không sử dụng Robots.txt, khó có thể loại trừ tình huống các công cụ rà quét thông tin “lần” theo đường liên kết ra ngoài của tệp tin nhạy cảm và tìm ra chúng.

Tạo tệp tin Robots.txt: Đơn giản!

Chỉ cần dùng một chương trình soạn thảo văn bản thông dụng (ví dụ Notepad, Nottab Light…) người dùng không chuyên cũng có thể tạo cho mình một tệp tin Robots.txt. Hãy tham khảo một câu lệnh (syntax) của tệp tin:

User-agent:

Disallow:

Dòng lệnh thứ nhất xác định loại công cụ tìm kiếm không được phép rà quét thông tin trong một khu vực được định sẵn. Dòng lệnh thứ hai (có thể là 3, 4 v.v…) xác định “khu vực cấm” đối với các chương trình rà quét thông tin bị “điểm danh” trong dòng lệnh một (User-agent). Sau khi tạo (lưu ở định dạng .txt), hãy đẩy tệp tin lên thư mục gốc (Root- nơi lưu trữ các tệp tin kiểu index.html, index.php, index.asp …) Tăng cường hơn nữa tính năng của Robots.txt, bạn có thể tham khảo một số snippets:

User-agent: *

Disallow: /

Tổ hợp mã này loại bỏ quyền tìm kiếm đối với mọi công cụ tìm kiếm trong một máy chủ (server) duy nhất.

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /private/

Tổ hợp mã không cho phép các công cụ tìm kiếm thâm nhập các thư mục /cgi-bin, /tmp và /private.

User-agent: esculapio

Disallow: /secret

Tổ hợp phím không cho phép công cụ tìm kiếm esculapio (một chương trình rà quét thông tin theo đường dẫn hoạt động trên nền Linux) thâm nhập thư mục /secret.

Như chúng ta đã thấy, Robots.txt khá thú vị và thực sự là một tệp tin quan trọng và hữu ích. Để tìm hiểu thêm thông tin chi tiếp về tệp tin này, bạn có thể truy nhập website http://www.robotstxt.org.

Thứ Năm, 21/10/2004 10:22
51 👨 966
0 Bình luận
Sắp xếp theo
    ❖ Tổng hợp