Google cuối cùng đã xác nhận vụ rò rỉ dữ liệu về xếp hạng tìm kiếm nhưng kêu gọi thận trọng khi đưa ra các giả định về cách hoạt động của xếp hạng tìm kiếm của Google dựa trên các tài liệu đó.
Đây có thể là vụ rò rỉ lớn nhất trong lịch sử SEO và Google Tìm kiếm.
Người phát ngôn của Google đã gửi cho Search Engine Land tuyên bố sau:
“Chúng tôi thận trọng chống lại việc đưa ra các giả định không chính xác về Tìm kiếm dựa trên thông tin ngoài ngữ cảnh, lỗi thời hoặc không đầy đủ. Chúng tôi đã chia sẻ thông tin sâu rộng về cách hoạt động của Tìm kiếm và các loại yếu tố mà hệ thống của chúng tôi cân nhắc, đồng thời nỗ lực bảo vệ tính toàn vẹn của kết quả khỏi bị thao túng.”
Google sẽ không bình luận về các thành phần cụ thể, thành phần nào chính xác, thành phần nào không hợp lệ, thành phần nào hiện đang được sử dụng, chúng được sử dụng như thế nào và mức độ (trọng lượng) của chúng đang được sử dụng.
Google cho biết nếu họ bình luận, những kẻ gửi thư rác hoặc những kẻ xấu có thể sử dụng nó để thao túng thứ hạng.
Chuyện gì đã xảy ra trước đó?
Theo Search Engine Land, hàng nghìn tài liệu dường như đến từ Content API Warehouse nội bộ của Google, đã được phát hành vào ngày 13 tháng 3 trên Github bởi một bot tự động có tên yoshi-code-bot.
Những tài liệu này đã được chia sẻ với Rand Fishkin, người đồng sáng lập SparkToro vào đầu tháng này (Xem thêm tại đây – trên SparkToro).
Tìm hiểu thêm một số chi tiết về nội dung rò rỉ này
Tất cả nội dung dưới đây chỉ với mục đích giúp chúng ta tham khảo thêm thông tin (Tham khảo theo Search Engine Land):
Có gì bên trong: Đây là những gì chúng ta biết về các tài liệu nội bộ nhờ Rand Fishkin và Michael King, Giám đốc điều hành iPullRank:
- Hiện tại: Tài liệu cho biết thông tin này là chính xác tính đến tháng 3.
- Tính năng xếp hạng: 2.596 mô-đun được thể hiện trong tài liệu API với 14.014 thuộc tính.
- Trọng số: Các tài liệu không chỉ rõ bất kỳ tính năng xếp hạng nào được tính trọng số như thế nào – chỉ là chúng tồn tại.
- Twiddlers: Đây là những chức năng sắp xếp lại “có thể điều chỉnh điểm truy xuất thông tin của một tài liệu hoặc thay đổi thứ hạng của một tài liệu”, theo Michael King.
- Giảm hạng: Nội dung có thể bị giảm hạng vì nhiều lý do, chẳng hạn như:
- Một liên kết không phù hợp với trang web mục tiêu.
- Tín hiệu SERP cho thấy người dùng không hài lòng.
- Đánh giá sản phẩm.
- Vị trí.
- Tên miền khớp chính xác.
- Khiêu dâm
- Lịch sử thay đổi: Google dường như giữ một bản sao của mọi phiên bản của mọi trang mà nó từng lập chỉ mục. Có nghĩa là Google có thể “ghi nhớ” mọi thay đổi từng được thực hiện trên một trang. Tuy nhiên, Google chỉ sử dụng 20 thay đổi cuối cùng của URL khi phân tích liên kết.
Liên kết quan trọng: Thật sốc, tôi biết. Các tài liệu cho thấy tính đa dạng và mức độ liên quan của liên kết vẫn là chìa khóa. Và PageRank vẫn còn tồn tại rất nhiều trong các tính năng xếp hạng của Google. PageRank cho trang chủ của trang web được xem xét cho mọi tài liệu.
- Điều này không chứng minh người phát ngôn của Google đã nói dối về việc các liên kết không phải là “yếu tố xếp hạng top 3” hoặc các liên kết ít quan trọng hơn đối với việc xếp hạng . Hai điều có thể đúng cùng một lúc. Một lần nữa, chúng tôi không biết bất kỳ tính năng nào trong số này có trọng số như thế nào.
Số nhấp chuột thành công rất quan trọng: Đây không phải là điều đáng ngạc nhiên, nhưng nếu bạn muốn xếp hạng tốt, bạn cần tiếp tục tạo ra nội dung và trải nghiệm người dùng tuyệt vời, dựa trên các tài liệu. Google sử dụng nhiều phép đo khác nhau, bao gồm badClicks, goodClicks, LastLongestClicks và unsquashedClicks.
Ngoài ra, các tài liệu dài hơn có thể bị cắt bớt, trong khi nội dung ngắn hơn sẽ nhận được điểm (từ 0-512) dựa trên tính nguyên gốc. Điểm cũng được tính cho nội dung Your Money Your Life, như sức khỏe và tin tức.
Tất cả nó có nghĩa gì? Theo Michael King:
- “Bạn cần thúc đẩy nhiều nhấp chuột thành công hơn bằng cách sử dụng nhóm truy vấn rộng hơn và kiếm được nhiều liên kết đa dạng hơn nếu bạn muốn tiếp tục xếp hạng. Về mặt khái niệm, điều này có ý nghĩa vì một phần nội dung rất mạnh mẽ sẽ làm được điều đó. Việc tập trung vào việc thúc đẩy lưu lượng truy cập chất lượng hơn để mang lại trải nghiệm người dùng tốt hơn sẽ gửi tín hiệu tới Google rằng trang của bạn xứng đáng được xếp hạng.”
Các tài liệu và lời khai từ phiên tòa chống độc quyền giữa Hoa Kỳ và Google đã xác nhận rằng Google sử dụng số lần nhấp chuột trong xếp hạng – đặc biệt là với hệ thống NavBoost, “một trong những tín hiệu quan trọng” mà Google sử dụng để xếp hạng.
Vấn đề thương hiệu: Bài học lớn của Rand Fishkin? Thương hiệu quan trọng hơn bất cứ điều gì khác:
- “Nếu có một lời khuyên chung mà tôi dành cho các nhà tiếp thị đang tìm cách cải thiện rộng rãi thứ hạng tìm kiếm không phải trả tiền và lưu lượng truy cập của họ thì đó sẽ là: Xây dựng một thương hiệu đáng chú ý, phổ biến, được công nhận rộng rãi trong không gian của bạn, bên ngoài tìm kiếm của Google.”
Các thực thể quan trọng: Quyền tác giả. Google lưu trữ thông tin tác giả liên quan đến nội dung và cố gắng xác định xem một thực thể có phải là tác giả của tài liệu hay không.
SiteAuthority: Google sử dụng thứ gọi là “siteAuthority”.
- Google đã cho chúng tôi biết điều tương tự đã tồn tại vào năm 2011, sau khi bản cập nhật Panda ra mắt, tuyên bố công khai rằng “nội dung chất lượng thấp trên một phần của trang web có thể ảnh hưởng đến xếp hạng của toàn bộ trang web”.
- Tuy nhiên, Google đã phủ nhận việc có điểm thẩm quyền trang web trong những năm kể từ đó.
Dữ liệu Chrome: Mô-đun có tên ChromeInTotal cho biết rằng Google sử dụng dữ liệu từ trình duyệt Chrome để xếp hạng.
Danh sách trắng: Một số mô-đun cho biết Google đưa một số tên miền nhất định liên quan đến bầu cử và COVID vào danh sách trắng.
isElectionAuthority và isCovidLocalAuthority: Mặc dù từ lâu chúng ta đã biết Google (và Bing) có “danh sách ngoại lệ” khi “các thuật toán cụ thể vô tình tác động đến các trang web”.
Các trang web nhỏ: Một tính năng khác là SmallPersonalSite – dành cho một trang web hoặc blog cá nhân nhỏ. Michael King suy đoán rằng Google có thể tăng cường hoặc hạ hạng các trang web như vậy thông qua Twiddler. Tuy nhiên, đó vẫn là một câu hỏi mở. Một lần nữa, chúng tôi không biết chắc chắn những tính năng này có trọng số như thế nào.
Những phát hiện thú vị khác. Theo tài liệu nội bộ của Google:
- Vấn đề mới mẻ – Google xem xét ngày tháng trong dòng nội dung (bylineDate), URL (syntacticDate) và nội dung trên trang (semanticDate).
- Để xác định xem một tài liệu có phải là chủ đề cốt lõi của trang web hay không, Google vector hóa các trang và trang web, sau đó so sánh các phần nhúng trang (siteRadius) với các phần nhúng trang web (siteFocusScore ).
- Google lưu trữ thông tin đăng ký tên miền (RegistrationInfo).
- Tiêu đề trang vẫn quan trọng. Google có một tính năng gọi là titlematchScore được cho là có thể đo lường mức độ tiêu đề trang phù hợp với truy vấn.
- Google đo kích thước phông chữ có trọng số trung bình của các thuật ngữ trong tài liệu (avgTermWeight) và văn bản liên kết.
Nếu bạn muốn xem thêm nội dung chi tiết quan trọng khác trong tài liệu rò rỉ này, hãy xem tại bài viết này của Search Engine Land.
Phần tổng kết
Biết sơ qua về cách hoạt động của thuật toán xếp hạng của Google là điều rất có giá trị đối với những người làm SEO, tuy nhiên vụ rò rỉ tài liệu này cũng không chắc đúng 100% so với hiện tại.
Google luôn cập nhật thường xuyên thuật toán cũng như cách xếp hạng tìm kiếm, nội dung rò rỉ có thể lỗi thời hoặc có nhiều nội dung không còn chính xác.
Điều quan trọng cuối cùng vẫn là việc xây dựng website mà người xem mong muốn ghé thăm, muốn dành thời gian, muốn nhấp chuột qua và muốn liên kết tới.
Cách tốt nhất để làm điều đó là xây dựng website theo cách mà người xem thật sự yêu thích. Với những nhà làm SEO, công việc SEO vẫn là tiếp tục xây dựng những website tuyệt vời đi kèm với các nội dung tuyệt vời cho người xem.
Xem thêm các thông tin về SEO mới nhất tại đây.