搜索引擎遵守的君子协定robots.txt 正在被AI暴力摧毁!

在互联网的草莽时代,搜索引擎秩序并非由依靠政策铁律铸就的,而是依靠一种基于信任的默契。

这源于一场无心之失。早期网络开发者查尔斯·斯特罗斯在测试自己编写的网络爬虫时,选择了一个颇具讽刺意味的网站:一个关于网络爬虫知识的网站。这个网站运行在一条仅有14.4K的狭窄线路上,斯特罗斯的爬虫瞬间涌来的请求,无异于一次“拒绝服务攻击”,使其彻底瘫痪。

搜索引擎遵守的君子协定robots.txt 正在被AI暴力摧毁!插图
网站的主人马丁·科斯特——世界上第一个Web搜索引擎AliWeb的发明者——对此极为不满。在要求斯特罗斯停止攻击后,他意识到必须为未来可能泛滥的爬虫设立规则。于是,他提出了“机器人排除协议”(Robots Exclusion Protocol),即在一个名为robots.txt的文本文件中,明确告知爬虫哪些区域是“禁止入内”的。

搜索引擎遵守的君子协定robots.txt 正在被AI暴力摧毁!插图
关键在于,robots.txt自诞生之初就不是一项强制性的技术标准。它不像TCP/IP协议,不支持就无法联网。它更像一块立在虚拟家园门前的告示牌,其效力完全依赖于访客的自觉。这是一种纯粹的“君子协定”。令人惊叹的是,这块看似脆弱的告示牌,在长达三十年的时间里,竟成功地维系了网络世界的部分秩序。

其早期有效运行的秘诀在于那个紧密的开发者社区。那时的互联网很小,声誉是每个人的核心资产。任何不守规矩的爬虫,其IP地址会被迅速拉黑,其行为会在社区中被公开谴责,这种名誉扫地的风险足以形成强大的约束力。

随着互联网的极速膨胀,robots.txt不仅未被淘汰,反而迎来了它的鼎盛时期。这背后是一场完美的价值交换。搜索引擎(如Google)需要抓取全球网站的内容以构建其索引帝国,而无数网站则渴望通过出现在搜索结果中来获取宝贵的流量。robots.txt为这场交换划定了清晰的规则,实现了“你予我数据,我予你流量”的共赢格局。历史证明,最严格遵守这一协定的公司,最终赢得了整个市场。
当然,世界从不缺少规则的挑战者。例如,拍卖信息聚合网站Bidder‘s Edge(BE)就无视eBay的robots.txt规定,肆意抓取数据。由于协议不具备法律强制力,eBay在封堵IP无效后,最终诉诸法庭。法院的判决以“非法入侵”为由禁止了BE的行为,这在客观上从法律层面强化了尊重robots.txt所代表的产权意识的正当性。

搜索引擎遵守的君子协定robots.txt 正在被AI暴力摧毁!插图
然而,建立在特定平衡之上的秩序,终将被打破平衡的力量所冲击。人工智能时代的到来,尤其是大模型对数据贪婪无度的需求,正在以近乎暴力的方式,撕裂这份维系了三十年的默契。
AI的数据利用模式,与搜索引擎构成了根本性的对立。搜索引擎是“指路者”,它将用户引向信息的源头,为网站带去生命线般的流量。而AI是“终结者”,它吞噬内容后直接生成答案,用户不再需要访问原始网站。支撑robots.txt的“善意+搜索回流”这一价值基石,被彻底掏空。

搜索引擎遵守的君子协定robots.txt 正在被AI暴力摧毁!插图
更严峻的是,AI公司们陷入了一个典型的“囚徒困境”。如果你严格遵守robots.txt,而你的竞争对手通过技术手段偷偷多抓取海量数据,结果会如何?你的模型会因“营养不良”而在性能上落后。用户不会因你的道德水准更高而选择你,他们只会涌向那个答案更强大的产品。于是,“如果我守规矩,而对手不守,我就输了”的逻辑,催生了系统性的违规冲动。
所有的内容网站都感到了脊背发凉。它们意识到,AI爬虫并非带来流量的友好访客,而是来夺取它们生存根基的“数据收割机”。内容被吸干,流量在消失,创作者署名权湮灭。因此,从BBC、《纽约时报》到博客平台Medium,众多网站纷纷在robots.txt中明确屏蔽GPTBot等AI爬虫。

搜索引擎遵守的君子协定robots.txt 正在被AI暴力摧毁!插图
颇具讽刺意味的是,当一些AI巨头在核心模型训练完成后,高调宣布遵守robots.txt,并“贴心”地教大家如何屏蔽其爬虫时,这一姿态被广泛质疑为“先占后告”的策略——你的模型已经吃饱了,现在才开始讲礼貌?

这场冲击暴露出robots.txt的结构性缺陷:它只是一本简单的“爬虫礼貌手册”,只能回答“能否进入”,却无法规定“进入后能做什么”、“用了我的东西该如何回报”。它无法应对AI时代复杂的权责关系。
面对困局,变革的探索已经开始。2025年,非营利组织RSL Collective提出了名为“Really Simple Licensing (RSL)”的升级方案。RSL的雄心在于,将那块古老的“禁止入内”告示牌,升级为一份清晰的“产权声明”和“使用条款”。网站可以借此明确告知AI:允许你为搜索索引而抓取,但禁止用我的内容训练你的通用大模型;你可以做摘要和引用,但必须标明来源、保留署名;若你想用我的内容进行商业盈利,请先来谈好合同。

User-agent: *Allow: /
#如果你是 AI,但你在干 搜索 / 索引 / 指路 这类事,没问题AI-Search: allowed
#不允许用本站内容训练通用大模型AI-Training: disallowed
#你可以做摘要,引用,回答问题,但是需要标明来源,给出链接,保留署名AI-Summarization: allowed-with-attribution
#如果你要靠我的内容赚钱,先来谈合同AI-Commercial: license-required

RSL的愿景,并非要阻止AI技术的

发展,而是试图将这场无序的“数据收割”,拉回一个可以谈判、有规则可循的轨道。它标志着互联网数据治理理念的一次深刻演变——从依赖社区声誉的“自律”,迈向明确权利与义务的“产权”规范。
然而,那些已然凭借数据优势建立起壁垒的科技巨头,是否会真心接纳并遵守这样的新规范?这仍是悬而未决的问题。搜索引擎时代的君子协定已被暴力摧毁,互联网数据的产权秩序,正站在重建的十字路口。