Cách kiểm tra robots.txt & sitemap.xml đúng chuẩn
Hai file robots.txt và sitemap.xml là nền tảng để Google crawl và index website đúng cách. Cấu hình sai một trong hai có thể khiến trang quan trọng biến mất khỏi kết quả tìm kiếm. Bài viết hướng dẫn kiểm tra cả hai đúng chuẩn.
robots.txt — kiểm soát crawl
File robots.txt nằm ở https://domain.com/robots.txt, hướng dẫn search engine được phép crawl trang nào.
Lỗi robots.txt phổ biến
- Chặn toàn bộ site: dòng
Disallow: /(thường sót lại sau khi deploy từ staging). - Chặn nhầm thư mục quan trọng: ví dụ
Disallow: /blog. - Quên khai báo Sitemap: nên thêm
Sitemap: https://domain.com/sitemap.xml.
Kiểm tra ngay: Robots.txt Checker miễn phí phân tích từng quy tắc Allow/Disallow.
sitemap.xml — giúp index nhanh
Sitemap liệt kê các URL bạn muốn Google index, đặc biệt quan trọng với site lớn hoặc mới.
Cần kiểm tra gì ở sitemap?
- Số URL không vượt 50.000/file.
- Có thẻ
<lastmod>để Google biết khi nội dung thay đổi. - Cấu trúc đúng (sitemap index trỏ tới sitemap con nếu nhiều URL).
Quy trình kiểm tra sau mỗi lần deploy
- Mở Robots.txt Checker, xác nhận không chặn nhầm.
- Mở Sitemap Checker, xác nhận đủ URL và có lastmod.
- Submit sitemap trong Google Search Console.
Kết luận
Hãy biến việc kiểm tra robots.txt và sitemap thành thói quen sau mỗi lần thay đổi lớn. Hai phút kiểm tra có thể cứu hàng tháng traffic bị mất vì lỗi cấu hình.
Câu hỏi thường gặp
robots.txt và sitemap.xml khác nhau thế nào?
Làm sao biết robots.txt chặn nhầm?
Bao lâu nên kiểm tra một lần?
Nhận bản tóm tắt SEO checklist qua email
Đăng ký để nhận bản tóm tắt các bước tối ưu SEO quan trọng nhất từ bài viết này.
Nhập email để tải template audit SEO 1 trang, dùng ngay cho website của bạn.
Kiểm tra website của bạn miễn phí
Chạy SEO audit hoặc kiểm tra chất lượng traffic ngay — không cần đăng ký.