Thuật toán Google - Hiểu để "chơi" đúng luật

ngày 10-03-2017

Được sáng lập vào năm 1998, Google đã và đang mang lại giá trị cho hàng tỉ người trên thế giới, trở thành một trong những công cụ tìm kiếm thông tin “thông minh” nhất hiện nay. Nhưng Google vẫn không dừng lại và hài lòng với những gì mình đã đạt được, cỗ máy tìm kiếm Google vẫn không ngừng được cải tiến, nâng cấp. Theo Ben Gomes, Phó Giám Đốc Kỹ Thuật của Google cho biết "Mục tiêu của chúng tôi là không ngừng cải tiến để giúp bạn tìm được câu trả lời ngày càng chính xác và nhanh hơn". Quả thật như vậy, theo thống kê từ trang web Google thì trung bình mỗi năm Google cập nhật thuật toán tìm kiếm khoảng 500-600 lần. Trong đó ngoại trừ một số thay đổi lớn làm ảnh hưởng đáng kể đến kết quả xếp hạng tìm kiếm Google và được Google công bố bằng những cái tên mới, còn lại thì hầu hết các thay đổi khác là những thay đổi nhỏ nhưng khá thường xuyên. Cùng nhìn lại từ năm 2011 đến nay, có thể thấy Google đã có 3 lần cập nhật thuật toán chính, làm ảnh hưởng đáng kể đến thứ hạng của website và các hoạt động dịch vụ SEO trên đó.

PANDA – Nội dung là VUA (CONTENT IS KING)


Lần đầu tiên là thuật toán PANDA được Google công bố vào đầu năm 2011. Sau thời gian Google xếp hạng kết quả dựa trên mức độ xuất hiện của từ khóa tìm kiếm với nội dung trang web thì Google thấy có gì đó chưa ổn. Thuật toán PANDA đưa ra nhằm xem xét kỹ hơn khái niệm mức độ liên quan và tập trung chính vào các thành phần on-page của website. Như thế nào là liên quan, đó chính là cấu trúc site, tốc độ load trang và các vấn đề liên quan đến trùng lặp nội dung, nội dung nghèo nàn, không hữu ích…. Điểm chính của PANDA là nội dung website cung cấp cho người dùng.

PANDA xem xét nhiều yếu tố, nếu bạn có cấu trúc website không quy chuẩn để con bọ của Google “hiểu lầm” rằng bạn có nhiều nội dung trùng lắp nhau thì website có thể bị đánh giá tệ, và Google có thể sẽ “trừng phạt” bạn. Nếu bạn có nội dung trong các trang không tốt, trùng lắp nhau hay  sao chép từ các nguồn khác, hoặc cố tình nhấn mạnh bằng quá nhiều heading, từ khóa thì cũng có thể bị  Google “phạt thẻ”. Các thay đổi này nhằm nhắc nhở các website đang sử dụng “chiêu” nhân bản nội dung không được tiếp tục như vậy nữa. Đó là cách làm tự động bằng phần mềm hoặc tự làm, tạo ra nhiều trang giống nhau lặp đi lặp lại nội dung. Ví dụ, bạn làm môi giới bất động sản có văn phòng ở Quận 1 và bạn muốn muốn website được xuất hiện khi người dùng tìm các từ khóa có liên quan đên bất động sản ở Quận 1 và các quận lân cận. Thế là bạn tạo các trang như “mua nhà Quận 1”, “mua nhà Quận 4”, “mua nhà Quận 3” và cứ thế. Nhưng thay vì các nội dung trên mỗi trang khác nhau,  có các thông tin riêng cho các Quận đó thì một cách nhanh nhất là bạn sao chép 95% nội dung giống nhau ở mỗi trang rồi đưa thêm 5% nội dung khác. Như vậy thì không ổn rồi, với PANDA bạn sẽ bị phát hiện và website bạn sẽ bị “phạt thẻ” với mức độ tùy thuộc vào mức độ vi phạm, mức độ trùng lắp của các trang.

Thuật toán PANDA vẫn không ngừng được cập nhật và lần cập nhật mới nhất của PANDA là PANDA phiên bản 4.2 vào ngày 17/07/2015. Sau mỗi lần cập nhật, sẽ có nhiều website bị rớt hạng. Nhưng các bạn học SEO an tâm, Website của bạn vẫn duy trì thứ hạng cao nếu nội dung hữu ích, cập nhật thường xuyên và website được xây dựng đúng chuẩn Google.

PENGUIN -  LIÊN KẾT LÀ HOÀNG HẬU (LINK IS QUEEN)

Trước đây, Google quan niệm rằng nếu thông tin nào càng có ích với người dùng thì sẽ càng được chia sẻ nhiều. Do đó, nếu trang web nào có nhiều liên kết đến thì trang web đó là cần thiết và nên được xếp hạng cao để người dùng có được thông tin cần nhanh chóng, hơn là phải đi vòng qua các trang web liên kết mới đến được trang web chính. Google xếp hạng dựa trên số lượng liên kết đến website. Tuy nhiên, sau đó Google lại thấy tiêu chí số lượng liên kết chưa ổn lắm và vào những tháng cuối năm 2011, Google đưa ra thuật toán PENGUIN liên quan đến chính đến các vấn đề off-page, nhấn mạnh vào số lượng và chất lượng các liên kết trỏ đến các trang web của bạn.

Trong 1 thời gian dài trước đó, rất nhiều SEOer khi phát hiện ra tiêu chuẩn xếp hạng của Google dựa trên link đã đầu tư thời gian để rải link, spam link để có được càng nhiều link đến các trang web càng tốt. Tuy nhiên, khi mọi người cố gắng khai thác và tận dụng tối đa link thì đã xảy ra hiện tượng spam link, rải link khắp mọi nơi mà không hề quan tâm xem nội dung có liên quan hay không. Mọi người bắt đầu làm bất kỳ gì họ có thể làm để có được link đến trang web của mình. Nhưng liệu có phải luôn luôn là càng nhiều càng tốt có đúng? Nhưng tất cả nên trong giới hạn, khi điều đó vượt quá mức cho phép, Google đã cập nhật “cây búa” vào thuật toán PENGUIN, và hàng ngàn website bị “trừng phạt” và con số này tiếp tục tăng lên nếu Google phát hiện website đó “ngập” trong link không chất lượng. Với cập nhật thay đổi này, có nhiều angency đã đưa thêm dịch vụ là kiểm soát và loại bỏ các bad link cho các website.

Thuật toán Penguin là một thuật toán “nguy hiểm” của các SEOer vì khi đã bị “phạt” thì traffic của website sẽ bị giảm đột ngột và cần thời gian khá lâu mới khắc phục lại được vị trí ban đầu.

Ngày 10/12/2014 là lần cập nhật mới nhất của thuật toán PENGUIN phiên bản 3.0. Bạn lưu ý nên tuân theo các chuẩn của Google về link như tránh spam liên kết, sử dụng văn bản ẩn, sử dụng liên kết trả tiền,… để đảm bảo vị trí thứ hạng website của mình trên Google được bền vững.

HUMMINGBIRD -  QUAN TRỌNG LÀ NGỮ CẢNH (CONTEXT IS IMPORTANT)

Để ghi nhớ 15 năm hình thành, vào ngày 27/09/2013, Google công bố thuật toán mới có tên là HUMMINGBIRD. Đây không thật sự là bản cập nhật thuật toán, mà thật sự là thuật toán mới. Trong đó, thuật toán HUMMINGBIRD tập trung chính vào “ngữ cảnh tìm kiếm”,  cuộc “hội thoại” trong tìm kiếm giữa người dùng và các website kết quả bởi Google nhận thấy thói quen của người dùng khi tìm thông tin bằng thiết bị di động. Đó là người dùng muốn được nói thay vì gõ vào câu truy vấn, người dùng muốn nhận được thông tin gần với ngữ cảnh của mình hơn và nhận được từ Google câu trả lời cá nhân hơn, chính xác hơn.

Ví dụ, bạn ngồi nhà ở Quận 5 và nói cho Google biết mình cần tìm chỗ học lập trình với truy vấn “học lập trình ở đâu TP.HCM”. Trước đây, Google sẽ tập trung vào tìm kiếm các từ khóa chính, đó là “học lập trình” và “TP.HCM” và hiện ra các trang liên quan. Nhưng với HUMMINGBIRD, thuật toán được cải tiến sao cho có thể tập trung tốt hơn vào ngữ nghĩa đằng sau câu truy vấn mọi chuyện sẽ khác. Google có thể hiểu hơn về vị trí thật sự của bạn, nếu bạn chia sẻ điều đó với Google và lúc đó Google sẽ hiểu rằng “ở đâu” nghĩa là bạn muốn một địa điểm vật lý và Google sẽ trả về cho bạn địa chỉ nào mà bạn có thể học lập trình gần nhà bạn nhất. Google đang muốn đi xa hơn, mang lại các kết quả chính xác hơn chứ không chỉ đơn giản là tìm các trang có các từ khóa tương ứng với truy vấn. Mục tiêu là các trang đáp ứng ngữ nghĩa của truy vấn, chứ không chỉ là các trang kết quả khớp với từ khóa tìm kiếm.

Ngoài ra, Google còn có các lần cập nhật thuật toán khác liên quan đến chức năng hỗ trợ mobile, tìm kiếm địa phương,… nhưng nhìn chung 3 thuật toán trên vẫn đang là 3 thuật toán chính và vẫn đang được Google cập nhật, cải tiến. Tất cả đều mong muốn mang lại kết quả nhanh và chính xác cho người dùng, nên các SEOer và các quản lý website không phải lo lắng nhiều nếu mình có đầu tư nội dung và vận hành website theo đúng chuẩn Google thì kết quả thứ hạng của mình vẫn luôn duy trì và tăng hạng. 


( Trung tâm tin học trường ĐH Khoa Học Tự Nhiên)
CHƯƠNG TRÌNH ĐÀO TẠO