Hãy cùng tìm hiểu khái niệm Crawling với IMO nếu bạn đang tự hỏi làm cách nào Google có thể hiểu nội dung trang web của bạn.
SEO là một lĩnh vực rất rộng và để hiểu đầy đủ về nó, bạn cần biết một số thuật ngữ cơ bản. Crawling là một trong những khái niệm cơ bản nhất bạn cần học khi làm SEO. Vậy Crawling là gì? Bài viết này sẽ cung cấp cho bạn câu trả lời chi tiết.
Crawling là gì?

Thu thập thông tin là quá trình khám phá theo đó các công cụ tìm kiếm gửi ra một nhóm Googlebots (được gọi là trình thu thập thông tin) để tìm nội dung mới và cập nhật. Nội dung có thể khác nhau: đó có thể là các trang web, hình ảnh, video, tệp PDF, v.v.. Nhưng dù ở định dạng nào, nội dung chủ yếu được nhận dạng bởi liên kết.
Googlebot nhận dạng bắt đầu bằng cách tải một số trang web và sau đó theo các liên kết trên các trang web đó để tìm URL mới. Điều này cho phép trình thu thập thông tin tìm thấy nội dung mới và thêm nội dung đó vào chỉ mục của họ có tên Caffeine. Đây được biết đến là một cơ sở dữ liệu lớn gồm các URL được phát hiện qua các liên kết và được người dùng tìm kiếm.
[block_content id=”706″]
Cách tối ưu hóa quy trình của công cụ tìm kiếm trang web của bạn?
Để tối ưu hóa quá trình thu thập thông tin. Trước tiên bạn nên kiểm tra biểu đồ thu thập thông tin của Google.
Nhấp vào hàng “Please select a property” . Để xem tốc độ thu thập thông tin của trang web.
Từ đây, bạn có thể xác định tốc độ thu thập dữ liệu của Google cho trang web của mình.
Điều này sẽ giúp đưa ra các giải pháp thích hợp để cải thiện vấn đề này.
Cụ thể, nó có thể liệt kê một số phương pháp giúp Google tăng tần suất thu thập dữ liệu các trang nội dung trong trang web:
- Thường xuyên cập nhật nội dung mới và chất lượng cao.
- Tối ưu hóa tốc độ tải trang.
- Đính kèm thêm các tệp Sitemap.xml.
- Theo Google, tốc độ phản hồi của máy chủ được cải thiện dưới 200 mili giây.
- Xóa nội dung trùng lặp trên trang web.
- Ngăn Googlebot hiển thị các trang không cần thiết khi quét robots.txt.
- Tối ưu hóa hình ảnh và video (nếu có).
- Tối ưu hóa cấu trúc liên kết nội bộ, sử dụng các liên kết ngược chất lượng.
Cách ngăn Google theo dõi dữ liệu không quan trọng trên trang web
Hầu hết mọi người nghĩ về việc đảm bảo Google có thể tìm thấy các trang quan trọng của họ. Nhưng hãy quên rằng có những trang mà bạn không muốn Googlebot tìm thấy.
Những trang này có thể chứa thông tin như:
- URL cũ với ít nội dung.
- URL trùng lặp (ví dụ: bộ lọc đơn hàng và thông số cho thương mại điện tử).
- Trang mã quảng cáo đặc biệt.
- Giai đoạn hoặc trang thử nghiệm.
Dưới đây là một số cách bạn có thể ngăn Google thu thập dữ liệu không liên quan trên trang web của bạn.
Sử dụng Robots.txt
Để chặn Googlebot khỏi các trang nhất định và các phần chuyển hướng, hãy sử dụng Robots.txt.
Robots.txt là gì?

Các tệp robots.txt nằm trong thư mục gốc của các trang web (ví dụ: yourdomain.com/robots.txt). Tệp này giúp các công cụ tìm kiếm đề xuất những phần nào trên trang web của bạn nên. Và không nên thu thập thông tin cũng như tốc độ chúng sẽ thu thập dữ liệu trang web của bạn, dựa trên các hướng dẫn cụ thể trong tệp Robots.txt.
Cách Googlebot xử lý tệp Robots.txt
- Nếu Googlebot không thể tìm thấy tệp Robots.txt cho một trang web. Nó sẽ tìm kiếm dữ liệu cho trang web đó .
- Thông thường, khi Googlebot tìm thấy tệp Robots.txt cho một trang web. Tệp này sẽ tuân theo các đề xuất và tiếp tục thu thập dữ liệu trang web.
- Nếu Googlebot truy cập vào thì gặp lỗi trong tệp Robots.txt của trang web và không thể xác định xem nó có tồn tại hay không, trang web sẽ không được thu thập thông tin.
Tối ưu hóa cho ngân sách thu thập thông tin
Ngân sách thu thập thông tin ở đây là số lượng URL trung bình Googlebot sẽ thu thập dữ liệu trên trang web của bạn trước khi thoát.
Vì vậy, để tối ưu hóa việc thu thập thông tin, hãy đảm bảo:
- Googlebot không quét các trang không quan trọng và có thể bị bỏ sót. Các trang quan trọng của bạn.
- Chặn trình thu thập thông tin truy cập nội dung mà bạn chắc chắn là không quan trọng.
- Không chặn trình thu thập thông tin truy cập các trang mà bạn đã thêm các lệnh khác, chẳng hạn như “canonical “. hoặc thẻ “noindex”.
Tuy nhiên, không phải tất cả robot web đều tuân theo hướng dẫn trong tệp Robots.txt. Trên thực tế, việc đặt các URL như vậy trong tệp Robots.txt có thể đặt nội dung trang web riêng tư ở chế độ công khai. Điều đó cũng có nghĩa là những người có ý định xấu có thể tìm thấy chúng dễ dàng hơn.
Vì vậy, tốt hơn hết bạn nên “không lập chỉ mục” các trang này và đặt chúng sau biểu mẫu đăng ký, thay vì vào tệp robots.txt của bạn.
Xác định thông số URL trong Google Search Console
Các trang web khác nhau (phổ biến nhất trong thương mại điện tử) cung cấp cùng một nội dung trên các URL khác nhau bằng cách chỉ định URL Thêm thông số. Thông thường các bộ lọc được sử dụng.
Ví dụ: trên Shopee, bạn có thể tìm kiếm giày thể thao và sau đó tinh chỉnh tìm kiếm của mình theo kiểu, phông chữ … Mỗi khi bạn tinh chỉnh tìm kiếm, chỉnh sửa, url sẽ thay đổi dễ dàng:

Google thực hiện tốt công việc giải mã URL chính. Tuy nhiên, bạn có thể sử dụng tính năng tham số URL trong Google Search Console để cho Google biết chính xác cách bạn muốn các trang của mình được xử lý.
Về cơ bản, nếu bạn sử dụng tính năng này để thông báo cho Google Googlebot mà không sử dụng URL có tham số để thu thập thông tin chúng tôi yêu cầu bạn ẩn nội dung này khỏi googlebot. Điều này có thể dẫn đến việc các trang đó bị xóa khỏi kết quả tìm kiếm. Đây là những gì bạn muốn nếu các thông số đó tạo ra các trang trùng lặp, nhưng không lý tưởng nếu bạn muốn lập chỉ mục các trang đó.
Cách để Google Crawling tất cả nội dung quan trọng của bạn
Giờ đây, bạn đã biết một số chiến thuật để ngăn các trình thu thập thông tin của công cụ tìm kiếm tránh xa nội dung không quan trọng của bạn. Tìm hiểu cách tối ưu hóa có thể giúp Googlebot tìm thấy các trang quan trọng của bạn.
Đôi khi, một công cụ tìm kiếm có thể tìm thấy các phần trên trang web của bạn theo cách thu thập thông tin. Nhưng các trang hoặc phần khác có thể bị ẩn vì lý do này hay lý do khác. Điều quan trọng là đảm bảo rằng các công cụ tìm kiếm có thể tìm thấy tất cả nội dung bạn muốn lập chỉ mục, không chỉ trang chủ của bạn.
Nếu bạn yêu cầu người dùng đăng nhập, điền vào biểu mẫu hoặc thực hiện khảo sát trước khi truy cập nội dung cụ thể, các công cụ tìm kiếm sẽ không nhìn thấy các trang được liệt kê bảo vệ đó. Trình thu thập thông tin chắc chắn sẽ không đăng nhập.
Khóa học SEO mang đến cho bạn kiến thức thực tế về cơ chế hoạt động của bộ máy tìm kiếm. Đồng thời đưa ra những giải pháp thiết kế. Tối ưu thông tin để tăng mức độ thân thiện của website.
Bạn có tin tưởng các biểu mẫu tìm kiếm không?
Googlebot sẽ gặp khó khăn khi thu thập thông tin vì các biểu mẫu. Tìm thanh kiếm. Một số người tin rằng nếu họ đặt hộp tìm kiếm trên trang web của mình, các công cụ tìm kiếm có thể tìm thấy bất cứ thứ gì mà khách truy cập của họ đang tìm kiếm.
Tuy nhiên, điều này có thể ngăn Googlebot thu thập dữ liệu trang web. Do đó, vui lòng xem xét cẩn thận việc cài đặt hộp tìm kiếm trên trang web.
Hidden Text truyền tải nội dung qua phi văn bản
Không sử dụng đa phương tiện (hình ảnh, video, GIF, v.v.). Hiển thị hiển thị văn bản bạn muốn lập chỉ mục. Mặc dù các công cụ tìm kiếm tốt hơn trong việc nhận dạng hình ảnh, không có gì đảm bảo rằng họ sẽ có thể đọc và hiểu nó. Vì vậy, thì những gì nên nhắn tin cho trong phần dấu trang > bao gồm trang web của bạn .
Các công cụ tìm kiếm có thể theo dõi điều hướng trang web của bạn không?
Googlebot phát hiện ra web thông qua các liên kết ngược từ các trang web khác hoặc hệ thống liên kết nội bộ của nó. Các trang trên toàn bộ trang web.
Nếu bạn có một trang mà bạn muốn công cụ tìm kiếm tìm nhưng không được liên kết với bất kỳ trang nào khác, thì trang đó gần như vô hình. . Ngoài ra, trang web mắc sai lầm nghiêm trọng khi cấu trúc điều hướng của họ theo cách mà các công cụ tìm kiếm không thể truy cập được. Điều này ảnh hưởng đến khả năng xuất hiện trong kết quả tìm kiếm của bạn.
Những lỗi điều hướng phổ biến khiến Googlebot không thể nhìn thấy trang web của bạn
Do đó, trang web của bạn phải có điều hướng có cấu trúc và rõ ràng. Cấu trúc thư mục URL hữu ích:
- Sự khác biệt giữa điều hướng trên thiết bị di động và máy tính để bàn.
- Bất kỳ loại điều hướng nào mà các mục menu không có trong HTML, chẳng hạn như điều hướng, hỗ trợ Google đã trở nên tốt hơn trong việc thu thập dữ liệu và hiểu Javascript, nhưng nó vẫn chưa phải là một quá trình hoàn hảo. Cách chắc chắn nhất để đảm bảo rằng Google tìm thấy, hiểu và lập chỉ mục nội dung nào đó là đưa nó vào HTML.
- Tùy chỉnh hoặc hiển thị điều hướng duy nhất cho một danh mục khách truy cập cụ thể so với những khách truy cập khác. Điều này thực sự ẩn nó khỏi các trình thu thập thông tin của công cụ tìm kiếm.
- Nó không liên kết đến bất kỳ trang chủ nào của trang web.
Trang web không có thông tin rõ ràng về cấu trúc của nó
Cấu trúc thông tin là việc quản lý và gắn nhãn nội dung của một trang web. Để nâng cao hiệu quả và khả năng khám phá cho người dùng. Do đó, kiến trúc thông tin phải trực quan để người dùng không mất giờ để tìm kiếm thứ gì đó.
Không sử dụng tệp Sitemap.xml
Sơ đồ trang web giống như một danh sách các URL trên trang web của bạn. Mà trình thu thập thông tin có thể sử dụng để khám phá và lập chỉ mục nội dung của bạn.
Một trong những cách dễ nhất để đảm bảo rằng Google tìm thấy các trang ưu tiên cao nhất của bạn là tạo tệp Sitemap.xml tuân theo các tiêu chuẩn của Google. Và gửi tệp đó qua Google Tìm kiếm bàn điều khiển.
Việc này giúp trình thu thập thông tin theo một đường dẫn duy nhất đến tất cả các trang quan trọng của bạn.
Lưu ý những điều sau khi sử dụng tệp Sitemap.xml
Khi sử dụng tệp Sitemap.xml, hãy đảm bảo rằng bạn:
- Chỉ bao gồm các URL mà bạn bản thân bạn muốn được các công cụ tìm kiếm lập chỉ mục.
- Không đưa URL vào sơ đồ trang nếu nó bị Robots.txt chặn.
- Không gửi các URL trùng lặp.
Nếu một trang web không có các trang web được liên kết khác. Bạn vẫn có thể lập chỉ mục nó bằng cách gửi bản đồ. xml trong Google Search Console.
Trình thu thập thông tin không thành công khi cố gắng truy cập URL của bạn?
Khi thu thập thông tin URL trang web của bạn, trình thu thập thông tin có thể gặp lỗi. Bạn có thể xem báo cáo “Lỗi thu thập thông tin” của Google Search Console để xác định các URL có thể gặp phải. Báo cáo này hiển thị cho bạn lỗi máy chủ và lỗi không tìm thấy. Các tệp nhật ký máy chủ cũng có thể hiển thị cho bạn điều này cùng với các thông tin khác như tần suất thu thập thông tin. Nhưng vì việc truy cập và phân tích tệp nhật ký máy chủ là một chiến thuật nâng cao hơn.
Mã 4xx: Khi trình thu thập thông tin của công cụ tìm kiếm không thể truy cập nội dung của bạn do lỗi máy khách
Lỗi 4xx là lỗi máy khách. Nghĩa là, URL được yêu cầu chứa cú pháp không chính xác hoặc không thể thực thi được.
Một trong những lỗi 4xx phổ biến nhất là lỗi 404. Lỗi này có thể xảy ra do lỗi chính tả trong URL. Các trang bị xóa hoặc chuyển hướng bị hỏng.
Giống như các công cụ tìm kiếm, nhấn 404, không thể truy cập URL. Khi người dùng gặp lỗi 404, họ có thể bực bội và bỏ đi.
Mã 5xx: Khi trình thu thập thông tin của công cụ tìm kiếm không thể truy cập nội dung của bạn do lỗi máy chủ
Lỗi 5xx là lỗi máy chủ có nghĩa là máy chủ của trang web không thể phản hồi yêu cầu từ trình duyệt hoặc công cụ tìm kiếm để truy cập trang. Trong báo cáo lỗi thu thập thông tin của Google Search Console, có một tab dành riêng cho những lỗi này. Điều này thường xảy ra do yêu cầu URL đã hết hạn và Googlebot đã loại bỏ yêu cầu.
Cách giải quyết
Có một cách để thông báo cho cả công cụ tìm kiếm và công cụ tìm kiếm rằng Trang của bạn đã di chuyển: 301 (chuyển hướng vĩnh viễn ).
Giả sử bạn chuyển trang từ: example.com/young-dogs/ sang example.com/puppies /
Công cụ tìm kiếm và người dùng cần một liên kết để chuyển từ URL cũ sang URL mới. Liên kết này là chuyển hướng 301.
Bạn cũng có tùy chọn 302 để chuyển hướng một trang. Tuy nhiên, điều này nên được dành riêng cho việc di chuyển tạm thời và trong trường hợp không phải là vấn đề chuyển nhượng vốn cổ phần.
Kết luận
Phần trên cung cấp thông tin chi tiết về khái niệm truy tìm và tối ưu hóa Thu thập thông tin của Google -Quá trình của trang web. Vốn rất quan trọng đối với các công ty cung cấp dịch vụ SEO.
Khi bạn đã đảm bảo rằng trang web của mình được tối ưu hóa để thu thập dữ liệu, bước tiếp theo là đảm bảo rằng nó có thể được lập chỉ mục. Theo dõi bài đăng tiếp theo của IMO Academy để tìm hiểu thêm về lập chỉ mục!
Link bài viết Cách hoạt động của Crawling trong SEO: https://imo.com.vn/cach-hoat-dong-cua-crawling-trong-seo/