Rò rỉ hơn 2.500 trang tài liệu nội bộ của Google, tiết lộ bí mật về thuật toán tìm kiếm

Khôi Nguyên

Moderator
Một vụ rò rỉ hơn 2.500 trang tài liệu nội bộ của Google đã làm sáng tỏ cách thức hoạt động của các thuật toán tìm kiếm, vốn được coi là công cụ quyền uy nhất Internet.

2_edited_4475483534335_webp_75.jpg

Thuật toán tìm kiếm của Google có lẽ là hệ thống quan trọng nhất trên Internet, quyết định các trang web tồn tại cũng như nội dung trên web trông như thế nào. Nhưng việc Google xếp hạng các trang web chính xác như thế nào khi tìm kiếm từ lâu vẫn là một điều bí ẩn, được các nhà báo, nhà nghiên cứu và những người làm việc trong lĩnh vực tối ưu hóa công cụ tìm kiếm (SEO) liên tục phải mày mò.

Giờ đây, một vụ rò rỉ hàng nghìn trang tài liệu nội bộ của Google dường như mang đến một cái nhìn chưa từng có về cách thức hoạt động của cỗ máy tìm kiếm khổng lồ này - và cho thấy rằng Google đã không hoàn toàn trung thực về cách thức xếp hạng kết quả tìm kiếm trong nhiều năm. Cho đến nay, Google vẫn chưa trả lời nhiều yêu cầu bình luận về tính hợp pháp của các tài liệu.

Rand Fishkin, người đã làm việc trong lĩnh vực SEO hơn một thập kỷ, cho biết một nguồn tin đã chia sẻ 2.500 trang tài liệu với anh ta với hy vọng rằng việc báo cáo về vụ rò rỉ sẽ phản bác lại những “lời nói dối” mà nhân viên Google đã chia sẻ về cách hoạt động của thuật toán tìm kiếm.

lgs_7714004820_webp_75.jpg

Các chi tiết được Fishkin chia sẻ rất dày đặc và mang tính kỹ thuật, có thể dễ đọc hơn đối với các nhà phát triển và chuyên gia SEO so với người bình thường. Nội dung rò rỉ cũng không nhất thiết là bằng chứng cho thấy Google sử dụng dữ liệu và tín hiệu cụ thể mà hãng đề cập để xếp hạng tìm kiếm. Đúng hơn, vụ rò rỉ phác thảo những dữ liệu nào Google thu thập từ các trang web, trang web và người tìm kiếm, đồng thời đưa ra gợi ý gián tiếp cho các chuyên gia SEO về những gì Google dường như quan tâm.

Các tài liệu bị rò rỉ đề cập đến các chủ đề như loại dữ liệu nào Google thu thập và sử dụng, những trang web nào Google đề cao các chủ đề nhạy cảm như bầu cử, cách Google xử lý các trang web nhỏ, v.v. Một số thông tin trong tài liệu dường như mâu thuẫn với các tuyên bố công khai của đại diện Google.

Một chuyên gia SEO chia sẻ: “'Nói dối' thật khắc nghiệt, nhưng đó là từ chính xác duy nhất được sử dụng ở đây. “Mặc dù tôi không nhất thiết phải đổ lỗi cho các đại diện của Google trong việc bảo vệ thông tin độc quyền của họ, nhưng tôi không hài lòng với những nỗ lực của Google nhằm tích cực làm mất uy tín của những người trong thế giới tiếp thị, công nghệ và báo chí, những người đã đưa ra những khám phá về cách thức thuật toán tìm kiếm của Google hoạt động.

Google đã không trả lời The Verge yêu cầu bình luận của về các tài liệu, bao gồm cả yêu cầu trực tiếp bác bỏ tính hợp pháp của chúng. Fishkin nói với The Verge trong một email rằng công ty không phủ nhận tính xác thực của vụ rò rỉ, nhưng một nhân viên đã yêu cầu anh ta thay đổi một số ngôn ngữ trong bài đăng liên quan đến cách mô tả một sự kiện.

1716958326296.jpeg

Thuật toán tìm kiếm bí mật của Google đã khai sinh ra cả một ngành gồm các nhà tiếp thị tuân thủ chặt chẽ hướng dẫn công khai của Google và thực hiện hướng dẫn đó cho hàng triệu công ty trên khắp thế giới. Các chiến thuật phổ biến và thường gây khó chịu đã dẫn đến một câu chuyện chung rằng kết quả của Google Tìm kiếm đang trở nên tồi tệ hơn, chứa đầy những thứ rác rưởi mà các nhà điều hành trang web cảm thấy cần phải tạo ra để trang web của họ được Google nhìn thấy. Để đáp lại báo cáo của The Verge về các chiến thuật dựa trên SEO, các đại diện của Google thường đưa ra lời biện hộ quen thuộc: đó không phải là những gì hướng dẫn của Google đưa ra.

Tuy nhiên, một số chi tiết trong tài liệu bị rò rỉ đặt ra câu hỏi về tính chính xác trong các tuyên bố công khai của Google về cách thức hoạt động của Tìm kiếm.

Một ví dụ được Fishkin và King trích dẫn là liệu dữ liệu Google Chrome có được sử dụng để xếp hạng hay không. Đại diện của Google đã nhiều lần chỉ ra rằng họ không sử dụng dữ liệu Chrome để xếp hạng các trang web nhưng Chrome được đề cập cụ thể trong các phần về cách các trang web xuất hiện trong kết quả tìm kiếm. Theo các tài liệu, các liên kết xuất hiện bên dưới URL chính của trang web vogue.com có thể được tạo một phần bằng dữ liệu Chrome.

Screenshot_2024_05_28_at_9.33.43_AM_png_75.jpg

Ảnh chụp màn hình trang Google Tìm kiếm về kết quả của Vogue.com, với các liên kết phụ bên dưới trang chủ chính. Các liên kết hướng đến các phần như “Met Gala 2024” và “Sắc đẹp”.

Một câu hỏi khác được đặt ra là EEAT đóng vai trò gì trong xếp hạng, nếu có. EEAT là viết tắt của kinh nghiệm, kiến thức chuyên môn, tính xác thực và độ tin cậy, một thước đo của Google được sử dụng để đánh giá chất lượng kết quả . Đại diện Google trước đây đã cho biết EEAT không phải là yếu tố xếp hạng. Fishkin lưu ý rằng ông không tìm thấy nhiều trong các tài liệu đề cập đến tên EEAT.

Một chi tiết đáng chú ý khác là tài liệu rò rỉ cho thấy Google còn thu thập dữ liệu của tác giả các bài viết “chủ yếu được phát triển và điều chỉnh cho các bài báo... nhưng cũng được áp dụng cho các nội dung khác (ví dụ: các bài báo khoa học)”. Mặc dù điều này không xác nhận rằng dòng tên tác giả là một số liệu xếp hạng rõ ràng nhưng nó cho thấy rằng ít nhất Google cũng đang theo dõi thuộc tính này. Đại diện của Google trước đây đã nhấn mạnh rằng dòng tên tác giả là điều mà chủ sở hữu trang web nên làm cho độc giả chứ không phải Google vì nó không ảnh hưởng đến thứ hạng tìm kiếm.

Vụ kiện chống độc quyền của chính phủ Hoa Kỳ chống lại Google - xoay quanh công cụ Tìm kiếm - cũng đã dẫn đến việc tài liệu nội bộ được công khai, cung cấp thêm thông tin chi tiết về cách hoạt động của sản phẩm chính của công ty.

#Googleròrỉtàiiệunộibộ #thuậttoántìmkiếmGoogleròrỉ
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top