服务公告

服务公告 > 业界新闻 > Cloudflare年报:Googlebot领跑AI抓取

Cloudflare年报:Googlebot领跑AI抓取

发布时间:2025-12-15 11:54
要点速览
  • Cloudflare在年度回顾中汇总了互联网流量、安全与AI爬虫行为等数据。
  • 在其统计口径下,Googlebot对网页的覆盖度明显领先其他AI相关爬虫。
  • “抓取—引荐比”反映:部分AI平台抓取频繁,但给站点带来的回流很少。
  • 越来越多站点开始在 robots.txt 中对AI爬虫做分级限制。

报告背景:数据从哪里来?

Cloudflare的年度报告通常基于其全球网络观察到的请求与安全事件进行汇总,属于“网络层视角”的统计。 这类报告的优势是样本量大、覆盖面广;需要注意的是,具体数字会受到统计口径与客户群体分布影响。

AI爬虫谁最“勤快”?

报告中提到,在其选取的时间窗口与口径下,Googlebot在“抓取覆盖度”方面明显高于其他AI相关爬虫。 这也解释了不少站长的直观感受:同样是开放网页,来自Google体系的抓取请求往往更密集、更持续。

站长视角:这意味着什么?
  • Google抓取“多用途”:既可能与搜索索引有关,也可能与AI相关数据收集存在交集。
  • 拦截要谨慎:如果你依赖搜索流量,粗暴屏蔽可能带来可见性波动。
  • 更合理的做法:按路径、按目录、按页面类型做精细化管理。

AI抓取在整体请求里占多少?

报告给出的观点是:从整体请求结构来看,AI相关爬虫在内容站点中已占据一定比例,并且呈现波动。 对站点运营来说,关键不在于“有没有被抓”,而在于“抓取是否可控、是否带来回流”。

“抓取—引荐比”:谁抓得多、谁带得少?

Cloudflare使用“抓取—引荐比”来描述一个现实差距:平台抓取你内容的频率,与它向你导流的频率之间差多少。 这个比值越高,通常意味着“抓得多、带得少”。

对站长最有用的结论:
  • 同样是AI平台,不同平台的“回流意愿”差别很大。
  • 只盯“抓取量”很容易误判,应该同时看“回流质量”。
  • 策略应当分层:能带来回流的,放宽;只抓不带的,收紧。

用户触发式抓取:增长更快的一类

报告还提到一种更值得关注的模式:用户在聊天机器人里提问后,平台即时去外部网页取数(也就是“按需抓取”)。 这类抓取往往与热点话题、搜索趋势高度相关,增长速度也更快,波动呈现周期性。

robots.txt:站点开始“分级管理”AI爬虫

越来越多站点在 robots.txt 中针对AI爬虫给出更明确的访问规则。常见做法是: 对登录入口、后台路径、接口路径等“非内容页”更严格;对公开内容页则结合回流价值决定是否开放。

给内容站的实用建议(可直接照做):
  1. 先盘点来源:统计最近7/30天的爬虫UA与请求量,分组看趋势。
  2. 再做分层策略:把“能导流的”和“只抓不带的”分开对待。
  3. 最后做灰度:先限制非关键目录,再逐步扩大,避免误伤正常搜索抓取。
写在最后
AI爬虫把“内容抓取”变成常态后,站点真正要做的是:把策略从“开/关”升级为“精细化控制”, 让可见性、回流与内容资产的边界更可控。
扫一扫访问手机版
30+ 高防云产品
1000+企业的共同选择