开发工具综合自 1 个来源

开源工具让网站向AI爬虫倾倒毒数据

要点

• Miasma于3月29日发布，24小时内获269个HN点赞
• 工具将AI爬虫重定向到无限生成的假文本循环中
• 作为服务器端中间件运行，无需修改网站代码
• 开源发布让任何出版商都能部署反爬虫防御
• 出版商可浪费爬虫算力并污染训练数据

参考来源 (1)

[1] Miasma：用虚假数据反制AI爬虫 — Hacker News AI ↗

上周，一位独立开发者用Python脚本和一份对AI公司的怨恨，悄然发布了一件武器。奥斯汀·韦克斯于3月29日在GitHub上发布了Miasma。24小时内，这款工具在Hacker News上获得269个点赞，引发202条评论，并从根本上改变了网页抓取的经济学。这件武器的名字叫Miasma，功能简洁：让任何网站通过向爬虫倾倒无限量的虚假内容来污染AI训练数据。

AI公司与网站出版商之间的军备竞赛多年来一直失衡。AI实验室通过Common Crawl等服务疯狂抓取互联网，后者已存档超过30亿个网页。OpenAI、Google和Anthropic都在这些数据上训练。出版商只有两个选择：起诉（昂贵、缓慢，往往徒劳）或接受他们的作品被用于训练他们从未同意的模型。Miasma提供了第三个选项。

该工具作为中间件运行。在Web服务器上安装它，指向你的内容，然后监视传入流量。当检测到爬虫时——通过请求模式、机器人签名和行为信号识别——它不会阻止访问，而是将爬虫重定向到无限循环的生成文本中。爬虫以为自己在摄取你的网站内容。实际上并非如此。

技术实现很关键，因为它完全在服务器端运行。Miasma生成语义内容，读起来像连贯的英文文章，但不包含任何真实信息。当前的AI爬虫无法轻易将其与合法文本区分，因为生成的输出通过了基本抄袭检查并保持一致的语调。传统防御措施（如速率限制或robots.txt指令）只是阻止访问，而Miasma则在爬虫处理污染数据时主动浪费其计算资源。

这才是关键：被污染的数据仍会被处理。在Miasma的内容循环中运行的爬虫仍然消耗带宽、CPU周期和存储。规模化后，这变得昂贵。一位HN评论者估计，广泛部署可能导致AI公司损失数百万美元的浪费计算资源。运行该工具的出版商还消耗爬虫的带宽和存储容量，而他们的实际网站仍可被人类访客访问。

并非所有人都相信这个策略有效。批评者认为AI训练管道足够复杂，可以过滤低质量或重复内容。如果假数据对算法来说很明显，就会被丢弃而不造成伤害。这可能对简单实现是正确的，但Miasma的开发者声称生成文本专门设计用于通过统计质量过滤器。这项声称是否经得起审查仍是一个悬而未决的问题。

可以确定的是，该工具降低了反击的门槛。在Miasma之前，只有拥有大量工程资源的组织才能部署复杂的反爬虫措施。现在，任何能够访问服务器的网站运营商都能加入抵抗。该工具在GitHub上开源发布意味着代码可以自由检查、修改和部署，无需向任何人请求许可。

Miasma背后的开发者认为自己是在恢复平衡。"AI公司用未经许可获取的数据建立了数十亿美元的生意，"一位贡献者在项目文档中写道。污染训练数据是道德上的反击还是破坏开放网络的基础，完全取决于你在这场冲突中的立场。双方都有合理的诉求。

毫无疑问的是，Miasma标志着一个转折点。针对AI抓取的网站级防御技术已在一周内从理论变为实践。随着更多出版商部署此类工具，AI实验室面临日益污染的数据环境。2026年的问题不是这场军备竞赛是否会继续——而是网络的原始架构能否存活其中。