开发工具 综合自 1 个来源

开源工具让网站向AI爬虫倾倒毒数据

要点

  • Miasma于3月29日发布,24小时内获269个HN点赞
  • 工具将AI爬虫重定向到无限生成的假文本循环中
  • 作为服务器端中间件运行,无需修改网站代码
  • 开源发布让任何出版商都能部署反爬虫防御
  • 出版商可浪费爬虫算力并污染训练数据
参考来源 (1)
  1. [1] Miasma:用虚假数据反制AI爬虫 — Hacker News AI

上周,一位独立开发者用Python脚本和一份对AI公司的怨恨,悄然发布了一件武器。奥斯汀·韦克斯于3月29日在GitHub上发布了Miasma。24小时内,这款工具在Hacker News上获得269个点赞,引发202条评论,并从根本上改变了网页抓取的经济学。这件武器的名字叫Miasma,功能简洁:让任何网站通过向爬虫倾倒无限量的虚假内容来污染AI训练数据。

AI公司与网站出版商之间的军备竞赛多年来一直失衡。AI实验室通过Common Crawl等服务疯狂抓取互联网,后者已存档超过30亿个网页。OpenAI、Google和Anthropic都在这些数据上训练。出版商只有两个选择:起诉(昂贵、缓慢,往往徒劳)或接受他们的作品被用于训练他们从未同意的模型。Miasma提供了第三个选项。

该工具作为中间件运行。在Web服务器上安装它,指向你的内容,然后监视传入流量。当检测到爬虫时——通过请求模式、机器人签名和行为信号识别——它不会阻止访问,而是将爬虫重定向到无限循环的生成文本中。爬虫以为自己在摄取你的网站内容。实际上并非如此。

技术实现很关键,因为它完全在服务器端运行。Miasma生成语义内容,读起来像连贯的英文文章,但不包含任何真实信息。当前的AI爬虫无法轻易将其与合法文本区分,因为生成的输出通过了基本抄袭检查并保持一致的语调。传统防御措施(如速率限制或robots.txt指令)只是阻止访问,而Miasma则在爬虫处理污染数据时主动浪费其计算资源。

这才是关键:被污染的数据仍会被处理。在Miasma的内容循环中运行的爬虫仍然消耗带宽、CPU周期和存储。规模化后,这变得昂贵。一位HN评论者估计,广泛部署可能导致AI公司损失数百万美元的浪费计算资源。运行该工具的出版商还消耗爬虫的带宽和存储容量,而他们的实际网站仍可被人类访客访问。

并非所有人都相信这个策略有效。批评者认为AI训练管道足够复杂,可以过滤低质量或重复内容。如果假数据对算法来说很明显,就会被丢弃而不造成伤害。这可能对简单实现是正确的,但Miasma的开发者声称生成文本专门设计用于通过统计质量过滤器。这项声称是否经得起审查仍是一个悬而未决的问题。

可以确定的是,该工具降低了反击的门槛。在Miasma之前,只有拥有大量工程资源的组织才能部署复杂的反爬虫措施。现在,任何能够访问服务器的网站运营商都能加入抵抗。该工具在GitHub上开源发布意味着代码可以自由检查、修改和部署,无需向任何人请求许可。

Miasma背后的开发者认为自己是在恢复平衡。"AI公司用未经许可获取的数据建立了数十亿美元的生意,"一位贡献者在项目文档中写道。污染训练数据是道德上的反击还是破坏开放网络的基础,完全取决于你在这场冲突中的立场。双方都有合理的诉求。

毫无疑问的是,Miasma标志着一个转折点。针对AI抓取的网站级防御技术已在一周内从理论变为实践。随着更多出版商部署此类工具,AI实验室面临日益污染的数据环境。2026年的问题不是这场军备竞赛是否会继续——而是网络的原始架构能否存活其中。

0:00