Bỏ qua tới nội dung chính
SEO & Audit kỹ thuật

Canonical URL là gì? Xử lý nội dung trùng lặp

Canonical URL là gì? Xử lý nội dung trùng lặp

Một sản phẩm có thể xuất hiện ở /giay-chay-bo, /giay-chay-bo?color=den, /category/giay?sort=price và cả phiên bản có mã theo dõi. Người đọc thấy cùng một món hàng. Google lại thấy nhiều URL cần crawl, so sánh và chọn đại diện. Đó là lúc canonical URL trở thành một quyết định kỹ thuật, không phải một thẻ meta thêm cho đủ checklist.

Canonical URL là gì?

Canonical URL là địa chỉ đại diện cho một nhóm trang trùng hoặc gần trùng nội dung. Bạn có thể đề xuất địa chỉ này bằng thẻ:

<link rel="canonical" href="https://example.com/giay-chay-bo">

Từ khóa quan trọng ở đây là đề xuất. Google xem rel="canonical" là tín hiệu mạnh, nhưng vẫn có thể chọn URL khác nếu redirect, sitemap, internal link hoặc nội dung gửi những tín hiệu trái ngược. Vì vậy, sửa canonical không dừng ở việc thay một dòng HTML.

Google gọi quá trình chọn URL đại diện là canonicalization. Nội dung trùng lặp tự nó không phải án phạt spam. Rắc rối thực tế là tín hiệu xếp hạng, backlink và dữ liệu hiệu suất bị chia cho nhiều URL; crawler cũng mất thời gian đi qua những biến thể không tạo thêm giá trị.

Dấu hiệu website đang có vấn đề canonical

Search Console báo “Duplicate, Google chose different canonical”

Thông báo này không có nghĩa Google bị lỗi. Nó cho biết canonical bạn khai báo chưa thuyết phục bằng các tín hiệu còn lại. Hãy kiểm tra URL Google chọn, sau đó so sánh:

  • Trang nào nhận nhiều internal link hơn?
  • URL nào nằm trong sitemap?
  • Có redirect hoặc liên kết HTTP/HTTPS lẫn lộn không?
  • Nội dung hai trang có thực sự đủ khác nhau để cùng index không?

Cùng một trang mở được bằng nhiều biến thể

Các nguồn thường gặp gồm dấu gạch chéo cuối URL, chữ hoa/chữ thường, tham số lọc, mã UTM, www và non-www, HTTP và HTTPS. Nếu mọi biến thể đều trả về 200 OK, bạn đã tạo ra nhiều ứng viên canonical.

Báo cáo hiệu suất bị chia nhỏ

Một bài viết có impression ở cả URL sạch và URL gắn tham số là dấu hiệu nên điều tra. Dữ liệu không hẳn mất, nhưng việc đọc hiệu suất và đánh giá CTR trở nên rối hơn cần thiết.

Chọn canonical đúng theo từng tình huống

Trang có tham số theo dõi

URL chứa utm_source, fbclid hoặc mã chiến dịch thường nên canonical về URL sạch. Internal link cũng phải dùng URL sạch; đừng để menu hoặc bài viết tiếp tục phát tán phiên bản có tham số.

Bộ lọc và sắp xếp trong ecommerce

Không phải URL lọc nào cũng vô giá trị. Trang “giày chạy bộ nam” có nhu cầu tìm kiếm riêng thì nên có nội dung, title và canonical tự tham chiếu. Ngược lại, ?sort=price_asc chỉ thay thứ tự sản phẩm thường nên canonical về danh mục gốc.

Quyết định dựa trên search intent, không dựa trên việc URL có dấu hỏi hay không.

Sản phẩm có nhiều biến thể

Nếu màu sắc chỉ đổi ảnh và mã SKU, canonical về sản phẩm chính thường hợp lý. Nếu mỗi biến thể có tồn kho, mô tả, nhu cầu tìm kiếm và landing page độc lập, canonical tự tham chiếu có thể tốt hơn. Một quy tắc duy nhất áp cho mọi catalog thường tạo lỗi.

Nội dung phân trang

Trang 2, 3, 4 không nên đồng loạt canonical về trang 1 nếu chúng chứa danh sách item khác nhau. Làm vậy có thể khiến Google bỏ qua sản phẩm hoặc bài viết chỉ xuất hiện ở các trang sâu. Mỗi trang phân trang nên có canonical tự tham chiếu và liên kết crawl được.

Bản in, PDF và tài liệu tải xuống

Với tài liệu không phải HTML, canonical có thể được gửi bằng HTTP header Link. Nếu bản PDF là tài sản chính và có giá trị độc lập, đừng mặc định canonical nó về bài HTML chỉ vì hai bên nói cùng một chủ đề.

Bốn tín hiệu phải nói cùng một tiếng nói

Một canonical bền vững thường có bốn lớp nhất quán:

  1. Redirect: URL cũ hoặc biến thể không còn cần thiết chuyển 301 tới URL chuẩn.
  2. Thẻ canonical: Trang trùng lặp trỏ về URL đại diện.
  3. Sitemap: Chỉ liệt kê URL canonical, indexable và trả về 200.
  4. Internal link: Menu, breadcrumb, bài viết và CTA đều liên kết tới URL chuẩn.

Redirect và rel="canonical" là tín hiệu mạnh. Sitemap yếu hơn, nhưng rất hữu ích khi đi cùng hai tín hiệu kia. Nếu sitemap ghi URL A, canonical trỏ URL B và internal link lại dùng URL C, Google phải tự giải bài toán mà lẽ ra website nên giải trước.

Bạn có thể dùng Redirect Chain Checker để xem URL đi qua bao nhiêu bước và SEO Checker để kiểm tra canonical đang xuất hiện trong HTML.

Những lỗi canonical gây hậu quả lớn

Canonical toàn site về trang chủ

Lỗi template này khiến mọi sản phẩm, danh mục và bài viết cùng đề xuất trang chủ làm đại diện. Google có thể bỏ qua tín hiệu vô lý, nhưng khả năng index và theo dõi dữ liệu sẽ bị ảnh hưởng.

Canonical tới URL redirect hoặc 404

Canonical phải trỏ thẳng tới URL cuối cùng trả về 200. Trỏ qua chuỗi redirect vừa lãng phí crawl vừa tạo tín hiệu không sạch.

Canonical chéo ngôn ngữ

Trang tiếng Việt không nên canonical sang bản tiếng Anh chỉ vì hai trang cùng chủ đề. Mỗi ngôn ngữ cần canonical cùng ngôn ngữ; quan hệ giữa các bản dịch được mô tả bằng hreflang.

Dùng robots.txt để “canonical hóa”

Chặn một URL trong robots.txt không nói cho Google biết URL thay thế là gì. Google thậm chí có thể giữ URL bị chặn trong chỉ mục mà không đọc được nội dung. Nếu mục tiêu là hợp nhất phiên bản, hãy dùng redirect hoặc canonical phù hợp.

Vừa canonical vừa noindex

Hai tín hiệu này trả lời hai câu hỏi khác nhau. noindex nói “đừng index trang này”; canonical nói “hãy hợp nhất tín hiệu vào trang kia”. Trộn chúng trong cùng một chiến lược làm kết quả khó đoán và khó debug.

Quy trình audit canonical trong 30 phút

Bước 1: Lấy mẫu URL theo nhóm

Chọn trang chủ, danh mục, sản phẩm, bài viết, trang có tham số, trang phân trang và một vài URL cũ. Audit theo mẫu template sẽ nhanh hơn kiểm tra ngẫu nhiên.

Bước 2: Ghi lại năm dữ liệu

Với mỗi URL, ghi HTTP status, URL sau redirect, canonical khai báo, canonical Google chọn và trạng thái có mặt trong sitemap. Chỉ một bảng nhỏ đã làm lộ phần lớn xung đột.

Bước 3: Kiểm tra liên kết nội bộ

Tìm xem website đang tự liên kết tới biến thể nào. Canonical không thể sửa tận gốc nếu CMS vẫn liên tục sinh link có tham số hoặc URL cũ.

Bước 4: Sửa ở template

Nếu lỗi lặp trên hàng trăm trang, sửa từng bản ghi là cách chắc chắn để lỗi quay lại. Hãy sửa quy tắc tạo URL, component breadcrumb, sitemap generator hoặc middleware redirect.

Bước 5: Xác minh sau triển khai

Chạy lại crawl, kiểm tra source HTML thay vì chỉ DOM đã render, rồi dùng URL Inspection trong Search Console cho một số trang đại diện. Canonical của Google có thể cần thời gian để thay đổi sau lần crawl tiếp theo.

Khi nào không cần canonical?

Nếu một URL duy nhất phục vụ nội dung, internal link nhất quán và không có biến thể indexable, self-canonical vẫn là lựa chọn tốt nhưng không phải phép màu xếp hạng. Đừng tạo thêm logic phức tạp chỉ để “tối ưu canonical”.

Điểm đáng đầu tư nằm ở nơi website tạo nhiều URL cho cùng một nội dung: ecommerce có bộ lọc, CMS có tag, chiến dịch quảng cáo gắn tham số hoặc hệ thống vừa đổi cấu trúc đường dẫn.

Ghi lại quyết định canonical như một quy tắc

Với website có nhiều template, hãy lập bảng “loại trang → canonical dự kiến → lý do → người phụ trách”. Tài liệu ngắn này giúp đội SEO, backend và nội dung không tự tạo ba quy tắc khác nhau. Mỗi lần thêm bộ lọc, locale hoặc landing campaign, đội phát triển có thể kiểm tra quyết định canonical trước khi URL được phát hành.

Kiểm tra nhanh: chạy SEO audit miễn phí để tìm canonical thiếu, canonical sai và chuỗi redirect trước khi chúng lan ra toàn site.

Kết luận

Canonical URL tốt không chỉ là thẻ đúng cú pháp. Đó là sự thống nhất giữa redirect, sitemap, internal link và nội dung. Khi bốn lớp này cùng trỏ về một URL, Google ít phải đoán hơn, dữ liệu Search Console gọn hơn và tín hiệu xếp hạng không bị chia nhỏ.

Nguồn tham khảo: Google Search Central về canonicalizationcác phương pháp khai báo canonical.

Quảng cáo

Câu hỏi thường gặp

Canonical URL có bắt buộc Google phải chọn đúng URL đó không?
Không. rel="canonical" là tín hiệu mạnh nhưng không phải mệnh lệnh. Google còn xem redirect, sitemap, internal link, HTTPS và mức độ đầy đủ của nội dung.
Mỗi trang có nên đặt canonical tự tham chiếu không?
Nên dùng self-canonical cho các trang độc lập, indexable để làm rõ URL ưu tiên, đặc biệt khi hệ thống có thể sinh tham số hoặc biến thể đường dẫn.
Trang phân trang có nên canonical hết về trang đầu?
Thông thường không. Mỗi trang phân trang chứa danh sách item khác nhau nên cần canonical tự tham chiếu và liên kết crawl được.
#Technical SEO #On-page SEO

Nhận bản tóm tắt SEO checklist qua email

Đăng ký để nhận bản tóm tắt các bước tối ưu SEO quan trọng nhất từ bài viết này.

Kiểm tra website của bạn miễn phí

Chạy SEO audit hoặc kiểm tra chất lượng traffic ngay — không cần đăng ký.