Bỏ qua tới nội dung chính
Chất lượng Traffic & Chống gian lận

Referral spam trong GA4: Cách làm sạch traffic

Referral spam trong GA4: Cách làm sạch traffic

Thứ Hai, báo cáo GA4 xuất hiện một nguồn referral lạ với 1.800 phiên. Thời gian tương tác gần bằng 0, toàn bộ traffic đến từ một thành phố không nằm trong thị trường, và không có đơn hàng. Phản xạ đầu tiên thường là thêm domain vào “Unwanted referrals”. Nhưng nếu làm vậy rồi coi như xong, bạn có thể chỉ đổi nhãn của dữ liệu bẩn chứ chưa loại nó khỏi báo cáo.

Referral spam, self-referral, bot traffic và referral từ cổng thanh toán có thể trông giống nhau trong bảng acquisition. Muốn xử lý đúng, trước hết phải biết mình đang nhìn loại nào.

Referral trong GA4 được ghi nhận ra sao?

Referral là phiên mà GA4 xác định người dùng đến từ liên kết trên một domain khác. Domain trước đó xuất hiện trong source, còn medium thường là referral.

Đây là dữ liệu bình thường khi một website thật dẫn người dùng đến bạn. Nó trở thành vấn đề khi:

  • domain là cổng thanh toán hoặc dịch vụ thuộc cùng hành trình;
  • chính domain/subdomain của bạn tự giới thiệu lẫn nhau;
  • traffic do bot hoặc script tạo ra;
  • spammer gửi event thẳng vào measurement endpoint;
  • chiến dịch bị mất UTM nên bị gán sai nguồn.

Một dòng referral lạ chưa đủ kết luận đó là bot.

Phân biệt bốn tình huống dễ nhầm

1. Unwanted referral hợp lệ

Khách rời website sang cổng thanh toán rồi quay lại trang cảm ơn. GA4 có thể xem cổng thanh toán là nguồn mới và ghi công chuyển đổi cho domain đó.

Đây không phải traffic giả. Bạn cần cấu hình unwanted referrals hoặc cross-domain measurement để hành trình giữ nguồn ban đầu.

2. Self-referral

Source hiển thị chính domain của bạn hoặc một subdomain. Nguyên nhân thường là:

  • Google tag thiếu ở một số trang;
  • cookie bị mất giữa domain;
  • cross-domain measurement chưa cấu hình;
  • redirect làm mất linker parameter;
  • consent mode hoặc CMP hoạt động không đồng nhất.

Chặn domain trong báo cáo không sửa gốc. Hãy kiểm tra đường đi của cookie và tag.

3. Crawler hoặc bot truy cập website thật

Bot tải trang và kích hoạt tracking giống trình duyệt. Bạn có thể thấy session, page view và đôi khi cả event. Nhóm này cần phân tích IP, user-agent, hành vi, velocity và chất lượng click.

4. Ghost spam

Event được gửi tới GA4 mà không cần mở website. Dữ liệu có thể chứa hostname lạ, page path vô nghĩa hoặc chiến dịch quảng cáo cho chính spammer. Vì request không đi qua server của bạn, log web có thể không có dấu vết.

“Unwanted referrals” làm gì và không làm gì?

Trong GA4, cấu hình unwanted referrals đánh dấu event phù hợp bằng ignore_referrer=true. Mục tiêu là không dùng referrer đó làm nguồn traffic mới.

Nó hữu ích cho cổng thanh toán, domain quản lý tương tác và một số luồng cross-domain. Nhưng cần nhớ:

  • event vẫn được thu thập;
  • user và session không tự biến mất;
  • dữ liệu lịch sử không được viết lại;
  • domain spam không bị chặn truy cập website;
  • source có thể chuyển thành direct hoặc tiếp tục chịu attribution từ nguồn trước.

Vì vậy, “thêm spam-domain vào unwanted referrals” không phải bộ lọc chống bot.

Quy trình điều tra referral lạ

Bước 1: Đừng nhìn mỗi Sessions

Thêm các dimension và metric:

  • hostname;
  • landing page;
  • country/city;
  • device category;
  • browser;
  • engagement rate;
  • average engagement time;
  • conversions hoặc key events;
  • first user source và session source.

Một nguồn thật có thể ít chuyển đổi nhưng vẫn có landing page hợp lý, nhiều thiết bị và hành vi đọc trang. Spam thường để lại cụm dấu hiệu bất thường, không chỉ một chỉ số.

Bước 2: Kiểm tra hostname

Hostname phải là domain bạn thực sự đo. Nếu event gắn hostname lạ hoặc (not set), khả năng measurement ID bị dùng ngoài website tăng lên.

Với nhiều domain hợp lệ, hãy lập allowlist logic trong báo cáo hoặc BigQuery thay vì nhớ bằng mắt.

Bước 3: Đối chiếu log server

Lấy cùng khung thời gian, landing path và quốc gia để tìm request. Nếu GA4 báo hàng nghìn phiên nhưng server không có traffic tương ứng, đó là đầu mối ghost spam hoặc event gửi trực tiếp.

Ngược lại, log có request dày đặc từ IP datacenter với user-agent lặp lại cho thấy bot thực sự đã truy cập.

Bước 4: Kiểm tra acquisition bị mất UTM

Một email, affiliate hoặc quảng cáo thiếu UTM có thể xuất hiện như referral lạ. Trước khi loại bỏ, hỏi đội marketing xem domain có thuộc đối tác, nền tảng thanh toán hoặc công cụ chuyển hướng nào không.

Bước 5: Kiểm tra thời điểm bắt đầu

Referral tăng đột ngột sau thay đổi checkout, consent banner, domain hoặc tag thường là lỗi triển khai. Spam có xu hướng xuất hiện đột ngột mà không trùng release, nhưng đây chỉ là gợi ý chứ không phải bằng chứng.

Cách xử lý theo nguyên nhân

Với cổng thanh toán và domain trong cùng hành trình

  1. Cấu hình cross-domain measurement nếu người dùng di chuyển giữa các domain bạn quản lý.
  2. Thêm payment provider vào unwanted referrals khi phù hợp.
  3. Test từ landing page đến giao dịch bằng DebugView.
  4. Xác nhận nguồn ban đầu vẫn nhận conversion sau thay đổi.

Đừng thêm hàng loạt domain khi chưa hiểu attribution; bạn có thể biến referral có giá trị thành direct.

Với self-referral

Kiểm tra Google tag có mặt trên mọi template, cookie domain, consent state và linker parameter. Dùng Tag Assistant để đi trọn flow thay vì chỉ mở homepage.

Self-referral là triệu chứng của đường đo bị đứt. Danh sách unwanted referrals có thể che triệu chứng nhưng không nối lại đường đó.

Với bot truy cập thật

GA4 không cung cấp IP cho báo cáo thông thường. Bạn cần lớp dữ liệu bên ngoài:

  • access log hoặc CDN log;
  • phân loại IP residential/datacenter/VPN/Tor;
  • velocity theo IP hoặc fingerprint;
  • tỷ lệ lặp user-agent;
  • hành vi click và thời gian giữa event.

IP Checker phù hợp để tra một IP nghi ngờ. Với dữ liệu theo thời gian, hệ thống chấm điểm traffic giúp tách người thật khỏi bot thay vì loại theo một rule đơn.

Với ghost spam

Không có một nút xóa dữ liệu đã vào GA4. Hướng xử lý thực tế gồm:

  • tạo exploration/report chỉ nhận hostname hợp lệ;
  • đánh dấu và loại khoảng dữ liệu nhiễu khi phân tích;
  • bảo vệ endpoint server-side nếu bạn gửi event qua Measurement Protocol;
  • kiểm soát measurement ID trong mã public ở mức có thể;
  • theo dõi xem spam có lặp lại theo campaign, hostname hoặc geography.

Measurement ID trên web vốn xuất hiện công khai, nên allowlist trong lớp báo cáo thường đáng tin hơn cố giữ nó bí mật.

Làm sạch dữ liệu mà không sửa lịch sử

GA4 không áp dụng filter mới ngược về quá khứ. Để báo cáo so sánh được, hãy ghi chú ngày cấu hình và tạo hai khoảng:

  • trước ngày xử lý: dùng segment loại nguồn/hostname đã xác định;
  • sau ngày xử lý: theo dõi rule mới có hoạt động không.

Nếu xuất dữ liệu sang BigQuery hoặc warehouse, tạo cột traffic_quality_status thay vì xóa row:

  • valid;
  • internal;
  • known_bot;
  • suspected_bot;
  • ghost_spam;
  • attribution_issue.

Giữ dữ liệu thô giúp bạn thay đổi rule mà không mất khả năng kiểm toán.

Dashboard cảnh báo referral spam

Một dashboard nhỏ nên có:

Cảnh báo Ngưỡng gợi ý
Source mới tăng đột biến >3 lần trung bình 7 ngày
Hostname không thuộc allowlist Bất kỳ volume đáng kể
Engagement time gần 0 Kết hợp session tăng mạnh
Một city chiếm phần lớn nguồn So với thị trường mục tiêu
Conversion bằng 0 Trong khi session tăng bất thường

Không dùng một ngưỡng để tự động xóa traffic. Cảnh báo chỉ mở cuộc điều tra; quyết định cần nhiều tín hiệu.

Sai lầm thường gặp

Xóa mọi referral có bounce cao

Một bài báo hoặc directory thật có thể gửi người đọc chỉ xem một trang. Chất lượng thấp không đồng nghĩa gian lận.

Dùng regex quá rộng

Regex chặn chuỗi “pay” có thể ảnh hưởng PayPal, payment subdomain và cả nguồn hợp lệ khác. Lưu danh sách domain chuẩn hóa, kiểm thử trước khi áp dụng.

Chỉ sửa GA4, bỏ qua server

Nếu bot đang tải trang thật, nó vẫn tiêu tốn băng thông và có thể click quảng cáo dù bạn đã ẩn nó khỏi report. Analytics hygiene và traffic protection là hai lớp khác nhau.

So số GA4 sau lọc với log thô rồi kết luận lệch

Log chứa asset request, crawler, API và request lỗi; GA4 chứa event phía client theo consent. Hai nguồn phải được chuẩn hóa trước khi so sánh.

Bạn có thể bắt đầu bằng GA4 vs Real Traffic để kiểm tra tag và hiểu khoảng lệch, sau đó đọc thêm bài Server logs vs GA4 vs Cloudflare để chọn nguồn dữ liệu phù hợp.

Checklist xử lý trong một buổi

  1. Xác định source/medium, hostname và landing page.
  2. So sánh engagement, geography, device và conversion.
  3. Đối chiếu access log hoặc CDN log.
  4. Hỏi đội marketing về payment, affiliate và redirect.
  5. Phân loại: attribution, self-referral, bot thật hoặc ghost spam.
  6. Áp dụng đúng biện pháp, ghi lại ngày thay đổi.
  7. Theo dõi ít nhất một chu kỳ kinh doanh trước khi kết luận.

Kết luận

Referral spam không phải một loại lỗi duy nhất. Có lúc đó là bot, có lúc là event giả, và nhiều khi chỉ là cấu hình attribution bị đứt. “Unwanted referrals” là công cụ chỉnh nguồn, không phải thùng rác xóa session. Điều tra bằng hostname, landing page, log server và hành vi trước; sau đó mới chọn filter, cross-domain, rule chất lượng traffic hoặc lớp bảo vệ.

Nguồn tham khảo: Google Analytics Help – Identify unwanted referrals.

Quảng cáo

Câu hỏi thường gặp

Thêm domain vào Unwanted referrals có xóa session spam không?
Không. GA4 dùng ignore_referrer để domain đó không trở thành nguồn mới; event và session vẫn được thu thập, dữ liệu lịch sử cũng không bị viết lại.
Làm sao phân biệt ghost spam với bot truy cập thật?
Đối chiếu hostname, landing page và access log. Nếu GA4 có nhiều event nhưng server không có request tương ứng, ghost spam hoặc event gửi trực tiếp có khả năng cao hơn.
Self-referral có phải bot không?
Không nhất thiết. Self-referral thường do tag, cookie, consent hoặc cross-domain measurement bị đứt giữa các trang hay domain.
#Bot Traffic #Quality Score #Search Console

Nhận bản tóm tắt SEO checklist qua email

Đăng ký để nhận bản tóm tắt các bước tối ưu SEO quan trọng nhất từ bài viết này.

Kiểm tra website của bạn miễn phí

Chạy SEO audit hoặc kiểm tra chất lượng traffic ngay — không cần đăng ký.