Những phát hiện lớn nhất trong vụ rò rỉ tài liệu nội bộ của Google về thuật toán Tìm kiếm

Khôi Nguyên · 01/06/2024

Những tiết lộ đáng chú ý nhất từ vụ rò rỉ hơn 2.500 trang tài liệu của Google về thuật toán Tìm kiếm cho thấy đại diện của Google trước đây đã không trung thực khi thảo luận về cách “người gác cổng lớn nhất của Internet” đánh giá và xếp hạng nội dung cho công cụ tìm kiếm của hãng.

Cách Google xếp hạng nội dung tím kiếm luôn là một hộp đen bí ẩn: phần lớn các trang web trên internet hiện nay đều phụ thuộc vào lưu lượng tìm kiếm từ Google để tồn tại. Chính vì vậy, nhiều trang web đã phải nỗ lực cả về tiền của lẫn nhân lực để đánh bại đối thủ cạnh tranh nhằm vươn lên giành vị trí dẫn đầu mỗi khi người dùng tìm kiếm bất cứ thứ gì trên Google.

Khi trang web của bạn được xếp hạng càng cao trên Google Tìm kiếm đồng nghĩa với nhiều lượt truy cập hơn, và khả năng kiếm tiền cũng cao hơn. Kết quả là, các nhà điều hành trang web bám sát từng từ mà Google xuất bản và từng bài đăng trên mạng xã hội của các nhân viên làm việc cho Google về thuật toán tìm kiếm.

Trong những năm qua, người phát ngôn của Google đã nhiều lần phủ nhận rằng các nhấp chuột của người dùng ảnh hưởng đến việc xếp hạng các trang web - nhưng các tài liệu bị rò rỉ đã lưu ý đến một số loại nhấp chuột mà người dùng thực hiện và cho biết chúng sẽ được đưa vào các trang xếp hạng trong tìm kiếm. Lời khai từ vụ kiện chống độc quyền của Bộ Tư pháp Hoa Kỳ trước đây đã tiết lộ một yếu tố xếp hạng có tên Navboost sử dụng các lần nhấp chuột của người tìm kiếm để nâng cao nội dung trong kết quả tìm kiếm.

Rand Fishkin, một chuyên gia trong ngành tối ưu hóa công cụ tìm kiếm (SEO), chia sẻ với The Verge qua email: “Đối với tôi, điều rút ra lớn hơn là thậm chí nhiều tuyên bố công khai của Google về những gì họ thu thập và cách công cụ tìm kiếm của họ hoạt động đều có bằng chứng mạnh mẽ chống lại họ”.

Vụ rò rỉ lần đầu tiên lan truyền sau khi các chuyên gia SEO Rand Fishkin và Mike King công bố một số nội dung của tài liệu bị rò rỉ vào đầu tuần này cùng với các phân tích đi kèm. Các tài liệu API bị rò rỉ chứa các kho lưu trữ chứa đầy thông tin và định nghĩa về dữ liệu mà Google thu thập, một số trong đó có thể cho biết cách các trang web được xếp hạng trong tìm kiếm. Lúc đầu, Google né tránh các câu hỏi về tính xác thực của các tài liệu bị rò rỉ trước khi xác nhận tính xác thực của chúng vào thứ Tư vừa qua.

“Chúng tôi thận trọng trước việc đưa ra các giả định không chính xác về Google Search dựa trên thông tin ngoài ngữ cảnh, lỗi thời hoặc không đầy đủ,” phát ngôn viên của Google, Davis Thompson, nói với The Verge trong một email vào thứ Tư. “Chúng tôi đã chia sẻ thông tin sâu rộng về cách hoạt động của công cụ Tìm kiếm và các loại yếu tố mà hệ thống của chúng tôi cân nhắc, đồng thời nỗ lực bảo vệ tính toàn vẹn của kết quả của chúng tôi khỏi bị thao túng.”

google-admits-massive-leak-related-to-search-is-authentic-v0-I6f7lmeoGc0a48ZLRHz257tTU4XbeY6B-...jpg

Chẳng có dấu hiệu nào trong các tài liệu về cách tính trọng số của các thuộc tính khác nhau. Cũng có thể một số thuộc tính có tên trong tài liệu - chẳng hạn như mã định danh cho "trang web cá nhân nhỏ" hoặc hạ cấp cho các bài đánh giá sản phẩm - có thể đã được triển khai tại một thời điểm nào đó nhưng sau đó đã bị loại bỏ. Chúng cũng có thể chưa bao giờ được sử dụng để xếp hạng các trang web.

“Chúng tôi không nhất thiết phải biết [các yếu tố được nêu tên] đang được sử dụng như thế nào, ngoài những mô tả khác nhau về chúng. Nhưng mặc dù chúng hơi thưa thớt nhưng vẫn có rất nhiều thông tin cho chúng tôi,” King nói. “Những khía cạnh nào chúng ta nên nghĩ đến cụ thể hơn khi tạo trang web hoặc tối ưu hóa trang web?”

Ý kiến cho rằng nền tảng tìm kiếm lớn nhất thế giới không xếp hạng kết quả tìm kiếm dựa trên cách người dùng tương tác với nội dung có vẻ vô lý. Nhưng những lời phủ nhận lặp đi lặp lại, những phản hồi của công ty được diễn đạt cẩn thận và các ấn phẩm trong ngành đưa ra những tuyên bố này một cách không nghi ngờ gì đã khiến nó trở thành một chủ đề tranh luận gây tranh cãi giữa các nhà tiếp thị SEO.

Một điểm quan trọng khác được Fishkin và King nhấn mạnh liên quan đến cách Google có thể sử dụng dữ liệu Chrome trong bảng xếp hạng tìm kiếm của mình. Đại diện Google Search đã nói rằng họ không sử dụng bất cứ thứ gì từ Chrome để xếp hạng, nhưng các tài liệu bị rò rỉ cho thấy điều đó có thể không đúng.

Ví dụ: một phần liệt kê “chrome_trans_clicks” để thông báo những liên kết nào từ một miền xuất hiện bên dưới trang web chính trong kết quả tìm kiếm. Fishkin giải thích nó có nghĩa là Google “sử dụng số lần nhấp chuột lên các trang trong trình duyệt Chrome và sử dụng số đó để xác định các URL phổ biến/quan trọng nhất trên một trang web, những URL này sẽ được tính toán để đưa vào tính năng liên kết trang web”.

Có hơn 14.000 thuộc tính được đề cập trong các tài liệu và các nhà nghiên cứu sẽ phải nghiên cứu trong nhiều tuần để tìm kiếm những gợi ý có trong các trang. Có đề cập đến “Twiddlers” hoặc các chỉnh sửa xếp hạng được triển khai bên ngoài các bản cập nhật hệ thống lớn nhằm tăng hoặc giảm hạng nội dung theo các tiêu chí nhất định. Các yếu tố của trang web, chẳng hạn như tác giả là ai, đều được đề cập, cũng như các thước đo về “quyền lực” của trang web. Fishkin chỉ ra rằng có rất nhiều thứ không được thể hiện nhiều trong các tài liệu, chẳng hạn như thông tin về kết quả tìm kiếm do AI tạo ra .

google-inc-GettyImages-2149535929_541248_m6i1qu_webp_75.jpg

Vậy tất cả những điều này có ý nghĩa gì đối với những người khác ngoài ngành SEO? Thứ nhất, mong đợi rằng bất kỳ ai điều hành một trang web sẽ đọc về vụ rò rỉ này và cố gắng hiểu nó. Rất nhiều chuyên gia SEO đang ném mọi thứ vào tường để xem điều gì sẽ xảy ra và các nhà xuất bản, công ty thương mại điện tử và doanh nghiệp có thể sẽ thiết kế nhiều thử nghiệm khác nhau để thử kiểm tra một số điều được đề xuất trong tài liệu. Tôi tưởng tượng rằng, khi điều này xảy ra, các trang web có thể bắt đầu trông, cảm nhận hoặc đọc hơi khác một chút - tất cả là do các ngành này cố gắng hiểu làn sóng thông tin mới nhưng vẫn còn mơ hồ này.

Fishkin nói: “Các nhà báo và nhà xuất bản thông tin về SEO và Google Tìm kiếm cần ngừng lặp lại một cách thiếu phê bình những tuyên bố công khai của Google và có cái nhìn khắc nghiệt hơn, mang tính đối nghịch hơn đối với các đại diện của gã khổng lồ tìm kiếm”. “Khi các ấn phẩm lặp lại những tuyên bố của Google như thể chúng là sự thật, chúng đang giúp Google tạo ra một câu chuyện chỉ hữu ích cho công ty chứ không hữu ích cho những người thực hành, người dùng hoặc công chúng.”

#GoogleSearchleak #ròrỉthuậttoánGoogleSearch