服务公告
Cloudflare年报:Googlebot领跑AI抓取
发布时间:2025-12-15 11:54
- Cloudflare在年度回顾中汇总了互联网流量、安全与AI爬虫行为等数据。
- 在其统计口径下,Googlebot对网页的覆盖度明显领先其他AI相关爬虫。
- “抓取—引荐比”反映:部分AI平台抓取频繁,但给站点带来的回流很少。
- 越来越多站点开始在 robots.txt 中对AI爬虫做分级限制。
报告背景:数据从哪里来?
Cloudflare的年度报告通常基于其全球网络观察到的请求与安全事件进行汇总,属于“网络层视角”的统计。 这类报告的优势是样本量大、覆盖面广;需要注意的是,具体数字会受到统计口径与客户群体分布影响。
AI爬虫谁最“勤快”?
报告中提到,在其选取的时间窗口与口径下,Googlebot在“抓取覆盖度”方面明显高于其他AI相关爬虫。 这也解释了不少站长的直观感受:同样是开放网页,来自Google体系的抓取请求往往更密集、更持续。
AI抓取在整体请求里占多少?
报告给出的观点是:从整体请求结构来看,AI相关爬虫在内容站点中已占据一定比例,并且呈现波动。 对站点运营来说,关键不在于“有没有被抓”,而在于“抓取是否可控、是否带来回流”。
“抓取—引荐比”:谁抓得多、谁带得少?
Cloudflare使用“抓取—引荐比”来描述一个现实差距:平台抓取你内容的频率,与它向你导流的频率之间差多少。 这个比值越高,通常意味着“抓得多、带得少”。
- 同样是AI平台,不同平台的“回流意愿”差别很大。
- 只盯“抓取量”很容易误判,应该同时看“回流质量”。
- 策略应当分层:能带来回流的,放宽;只抓不带的,收紧。
用户触发式抓取:增长更快的一类
报告还提到一种更值得关注的模式:用户在聊天机器人里提问后,平台即时去外部网页取数(也就是“按需抓取”)。 这类抓取往往与热点话题、搜索趋势高度相关,增长速度也更快,波动呈现周期性。
robots.txt:站点开始“分级管理”AI爬虫
越来越多站点在 robots.txt 中针对AI爬虫给出更明确的访问规则。常见做法是: 对登录入口、后台路径、接口路径等“非内容页”更严格;对公开内容页则结合回流价值决定是否开放。
- 先盘点来源:统计最近7/30天的爬虫UA与请求量,分组看趋势。
- 再做分层策略:把“能导流的”和“只抓不带的”分开对待。
- 最后做灰度:先限制非关键目录,再逐步扩大,避免误伤正常搜索抓取。
AI爬虫把“内容抓取”变成常态后,站点真正要做的是:把策略从“开/关”升级为“精细化控制”, 让可见性、回流与内容资产的边界更可控。