服务公告

服务公告 > 业界新闻 > Google：NotebookLM抓取不受robots限制

Google：NotebookLM抓取不受robots限制

谷歌在“用户触发的抓取工具（User-Initiated Fetchers）”文档中新增说明：NotebookLM 使用的抓取代理会忽略 robots.txt。这类抓取是由用户在 NotebookLM 中发起，用于读取链接内容做总结、问答与思维导图，不属于搜索引擎索引行为。

NotebookLM 会做什么

用户把网页/文档丢进 NotebookLM，系统会拉取内容做摘要、问答和主题梳理；

其抓取代理标识为 Google-NotebookLM，按“用户触发抓取”的逻辑默认不遵守 robots.txt。

与常规 Googlebot 的区别

Googlebot/索引抓取：遵守 robots.txt，用于搜索收录与排序；

NotebookLM/用户触发抓取：以用户阅读与处理为目的，不走 robots.txt 约束。

站点侧的应对思路（不写空话，按优先级）

识别与审计：在日志中按 User-Agent 过滤 Google-NotebookLM，确认被访问范围与频次；

明确策略：

内容允许被“用户工具”读取：维持现状；

不希望被访问：在安全/防火墙层按 UA、IP、路径做阻断或质询（如站内安全插件自定义规则，或在边缘/源站层做拒绝）；

最小暴露面：登录后内容、私有资料与合规敏感页，一律鉴权后再展示，而不是依赖 robots.txt 隐藏；

告知与合规：若站内含用户数据/授权素材，补充使用条款与隐私声明，明确第三方工具访问边界。

给运营与法务的要点摘要

这不是搜索排名事件，是“用户触发抓取”的规则差异；

若要彻底禁止，只能在服务器/应用层面做访问控制，而非 robots.txt；

建议把“NotebookLM 访问处置”写入网站安全基线与日志周报。

把 robots.txt 当“隐身斗篷”的时代早就过去了。真正有效的是鉴权、最小权限与边缘层策略；对需要外部工具读取的页面，做好“可控可追踪”的灰度区分即可。