Google vô tình xuất bản tài liệu về cách hoạt động của Search

Vào thứ Hai vừa qua, các tài liệu nội bộ mô tả những yếu tố mà Google Search xem xét khi xếp hạng và hiển thị kết quả web đã bị rò rỉ.

Google vô tình làm lộ cách hoạt động của Search

Các tài liệu này đã được công bố rộng rãi bởi Rand Fishkin của SparkToro, một công ty phần mềm. Fiskin trước đây đã làm việc trong ngành tối ưu hóa công cụ tìm kiếm (SEO).

https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/

“Kho nội dung API của Google” này chứa tài liệu API nội bộ giải thích cho nhân viên cách hoạt động của các thành phần khác nhau tạo ra kết quả tìm kiếm. Tổng cộng có hơn 2.500 trang. Một số mô tả các hệ thống cũ hơn, nhưng các tài liệu khác dường như vẫn còn cập nhật.

Dựa trên những gì đã được xuất bản, Google có vẻ đã công bố nó một cách công khai - có lẽ là do tình cờ - thông qua GitHub bắt đầu từ ngày 27 tháng 3. Các tài liệu giải thích sau đó đã được đưa ra vào ngày 7 tháng 5. Tuy nhiên, vì nó đã được lập chỉ mục bởi một dịch vụ của bên thứ ba trong khoảng thời gian đó, nên bản sao của nó vẫn có sẵn ngay cả sau khi Google xóa.

Mặc dù dữ liệu này cho thấy những yếu tố mà Google Search có thể xem xét khi sắp xếp kết quả tìm kiếm nhưng không tiết lộ tầm quan trọng của từng yếu tố đối với thứ hạng cuối cùng.

Những người trong cộng đồng SEO cố gắng thích ứng với những thay đổi về thứ hạng của Google Search và xuất hiện ở vị trí cao hơn trên trang có thể thấy dữ liệu này hữu ích. Sau khi xem xét tài liệu này, họ cho rằng nó mâu thuẫn với những gì Google đã công khai nói về cách hoạt động của Search.

Google vẫn chưa bình luận công khai về vụ rò rỉ này. Công ty đã công bố bản cập nhật lớn mới nhất của mình cho Search vào tháng 3 với mục đích hiển thị nội dung chân thực và “hữu ích” hơn. Hệ thống xếp hạng cốt lõi của nó đã được cập nhật để xác định xem một trang có được “tạo cho công cụ tìm kiếm thay vì cho mọi người hay không”.

Những phát hiện lớn nhất trong vụ rò rỉ

Có một điều rõ ràng là thuật toán Google Search chưa bị rò rỉ và các chuyên gia SEO không đột nhiên có được tất cả các câu trả lời. Nhưng thông tin bị rò rỉ trong tập hợp hàng nghìn tài liệu nội bộ của Google vẫn còn rất lớn. Đó là cái nhìn chưa từng có về hoạt động nội bộ thường được bảo vệ chặt chẽ của Google.

Các trang web phụ thuộc vào lưu lượng tìm kiếm để tồn tại và nhiều trang web sẽ phải nỗ lực rất nhiều - và mất chi phí lớn - để đánh bại đối thủ cạnh tranh và vươn lên dẫn đầu kết quả. Xếp hạng tốt hơn có nghĩa là nhiều lượt truy cập trang web hơn, đồng nghĩa với nhiều tiền hơn. Kết quả là, các nhà điều hành trang web bám sát từng từ mà Google xuất bản, cũng như từng bài đăng trên mạng xã hội liên quan đến việc xếp hạng tìm kiếm.

Trong những năm qua, người phát ngôn của Google đã nhiều lần phủ nhận rằng các nhấp chuột của người dùng ảnh hưởng đến việc xếp hạng những trang web - nhưng các tài liệu bị rò rỉ đã lưu ý đến một số loại nhấp chuột mà người dùng thực hiện và đưa vào những trang xếp hạng tìm kiếm. Lời khai từ vụ kiện chống độc quyền của Bộ Tư pháp Hoa Kỳ trước đây đã tiết lộ một yếu tố xếp hạng có tên là Navboost sử dụng các lần nhấp chuột của người dùng để nâng cao nội dung trong tìm kiếm.

Rand Fishkin, một chuyên gia trong ngành tối ưu hóa công cụ tìm kiếm (SEO), trao đổi với The Verge qua email: “Đối với tôi, điều rút ra lớn nhất là nhiều tuyên bố công khai của Google về những gì họ thu thập và cách công cụ tìm kiếm của họ hoạt động đều đều đi ngược lại so với thực tế”.

Vụ rò rỉ lần đầu tiên lan truyền sau khi các chuyên gia SEO Fishkin và Mike King công bố một số nội dung của tài liệu bí mật vào đầu tuần này cùng với các phân tích đi kèm. Các tài liệu API bị rò rỉ gồm những kho lưu trữ chứa đầy thông tin và định nghĩa về dữ liệu mà Google thu thập, một số trong đó có thể cho biết cách các trang web được xếp hạng trong kết quả tìm kiếm. Lúc đầu, Google né tránh các câu hỏi về tính xác thực của các tài liệu bị rò rỉ trước khi xác nhận chính thức vào thứ Tư vừa qua.

“Chúng tôi thận trọng trước việc đưa ra các giả định không chính xác về Search dựa trên thông tin ngoài ngữ cảnh, lỗi thời hoặc không đầy đủ”, phát ngôn viên của Google, Davis Thompson, trao đổi với The Verge trong một email vào thứ Tư vừa qua. “Chúng tôi đã chia sẻ thông tin sâu rộng về cách hoạt động của Search và các loại yếu tố mà hệ thống của chúng tôi cân nhắc, đồng thời nỗ lực bảo vệ tính toàn vẹn của kết quả khỏi bị thao túng”.

Không có chỗ nào trong các tài liệu nói về cách tính trọng số của những thuộc tính khác nhau. Cũng có thể một số thuộc tính có tên trong tài liệu - chẳng hạn như mã nhận dạng cho "trang web cá nhân nhỏ" hoặc hạ cấp cho các bài đánh giá sản phẩm - có thể được triển khai tại một thời điểm nào đó, nhưng sau đó đã bị loại bỏ. Chúng cũng có thể chưa bao giờ được sử dụng để xếp hạng các trang web.

“Chúng ta không nhất thiết phải biết [các yếu tố] đang được sử dụng như thế nào, ngoài những mô tả khác nhau về chúng. Mặc dù không quá phong phú nhưng vẫn có rất nhiều thông tin cho chúng ta”, King nói. “Những khía cạnh nào chúng ta nên nghĩ đến cụ thể hơn khi tạo trang web hoặc tối ưu hóa trang web?”.

Ý kiến ​​cho rằng nền tảng tìm kiếm lớn nhất thế giới không xếp hạng kết quả tìm kiếm dựa trên cách người dùng tương tác với nội dung có vẻ vô lý. Nhưng những lời phủ nhận lặp đi lặp lại, phản hồi được diễn đạt cẩn thận và các ấn phẩm trong ngành khiến chúng trở thành một chủ đề gây tranh cãi.

Một điểm quan trọng khác được Fishkin và King nhấn mạnh liên quan đến cách Google có thể sử dụng dữ liệu Chrome trong bảng xếp hạng tìm kiếm của mình. Đại diện Google Search đã nói rằng họ không sử dụng bất cứ thứ gì từ Chrome để xếp hạng, nhưng các tài liệu bị rò rỉ cho thấy điều đó có thể không đúng. Ví dụ, một phần liệt kê “chrome_trans_clicks” để thông báo những liên kết nào từ một domain xuất hiện bên dưới trang web chính trong kết quả tìm kiếm. Fishkin giải thích nó có nghĩa là Google “sử dụng số lần nhấp chuột lên các trang trong trình duyệt Chrome và sử dụng số đó để xác định những URL phổ biến/quan trọng nhất trên một trang web, những URL này sẽ được tính toán để đưa vào tính năng liên kết trang web”.

Có hơn 14.000 thuộc tính được đề cập trong tài liệu và các nhà nghiên cứu sẽ phải nghiên cứu trong nhiều tuần để tìm những gợi ý có trong các trang. “Twiddlers” hay các chỉnh sửa xếp hạng được triển khai bên ngoài những bản cập nhật hệ thống lớn nhằm tăng hoặc giảm hạng nội dung theo các tiêu chí nhất định. Các yếu tố của trang web, chẳng hạn như tác giả là ai, đều được đề cập, cũng như những thước đo về “quyền lực” của trang web. Fishkin chỉ ra rằng có rất nhiều thứ không được thể hiện trong các tài liệu, chẳng hạn như thông tin về kết quả tìm kiếm do AI tạo ra.

Vậy tất cả những điều này có ý nghĩa gì? Thứ nhất, có lẽ bất kỳ ai điều hành một trang web sẽ đọc về vụ rò rỉ này và cố gắng hiểu nó. Các nhà xuất bản, công ty thương mại điện tử và doanh nghiệp có thể sẽ thiết kế nhiều thử nghiệm khác nhau để thử kiểm tra một số điều được đề xuất trong tài liệu. Khi điều này xảy ra, các trang web có thể bắt đầu mang lại cảm giác hơi khác một chút - tất cả là do chúng cố gắng hiểu làn sóng thông tin mới nhưng vẫn còn mơ hồ này.

Fishkin nói: “Các nhà báo và nhà xuất bản thông tin về SEO và Google Search cần ngừng lặp lại một cách máy móc những tuyên bố công khai của Google và có cái nhìn chặt chẽ, mang tính đối nghịch hơn nhiều đối với các phát ngôn của gã khổng lồ tìm kiếm”. “Các ấn phẩm lặp lại những tuyên bố của Google như thể chúng là sự thật, chỉ giúp Google tạo ra một câu chuyện hữu ích cho công ty chứ không hữu ích cho những người thực hành, người dùng hoặc công chúng.”

Thứ Tư, 04/09/2024 20:03
52 👨 1.395
0 Bình luận
Sắp xếp theo
    ❖ Chuyện công nghệ