Linux内核维护者正被自己部署的安全工具淹没——每天约有10份漏洞报告涌入他们的处理队列,这些报告正是人工智能生成的。这本应是AI最擅长的领域:自动发现代码中的安全缺陷。然而讽刺的是,同一批工具现在正在制造人类无法消化的信息洪流。
AI驱动的静态分析工具确实变得极其强大。它们能在几分钟内扫描数百万行内核代码,标记任何疑似缓冲区溢出、条件竞争或内存安全违规的模式。但「潜在问题」和「可利用漏洞」是完全不同的概念。这些AI标记的发现绝大多数是误报——不会实际破坏任何东西的代码风格违规、从未在实践中发生的理论边缘情况,或者对算法来说看起来可疑但对理解周围上下文的人类来说完全合理的模式。
对于已经疲于管理补丁、审查拉取请求、维护内核庞大代码库的维护者来说,这种AI生成的积压造成了一种新的分类瘫痪。每份报告至少需要一瞥以确定是否值得采取行动。按每天10份计算,假设每份只需六分钟评估,那也至少需要一个小时的强制审查时间。现实中,正确评估一个潜在内核漏洞通常需要重现问题、追踪执行路径、检查标记的代码路径是否真的可达、理解安全影响。有些报告需要数小时处理。维护者报告说有时整天都在处理这个队列。
更深层的问题是信噪比。传统的漏洞赏金项目和人类安全研究人员几十年前就吸取了这个教训:质量比数量更重要。一个确认可利用的漏洞比一万个理论担忧更有价值。AI工具还没有内化这种区分——它们被训练为标记任何可能有问题的东西,因为漏掉真正的漏洞比产生噪音更糟糕。但当每个AI工具同时采用这种策略时,累积的输出压垮了负责处理发现的人类。
一些维护者已开始完全忽略自动化报告,这本身就带来了风险。合法的漏洞可能与噪音一起被忽视。其他人开始开发过滤脚本和启发式方法来在人工审查之前预筛选AI报告——本质上是在已经复杂的工具之上构建第二层分类。
开源生态系统在很大程度上将其安全基础设施建立在人类专家会过滤和优先处理发现的假设上。AI在最糟糕的时刻扰乱了这种模式——在内核攻击面随着新硬件支持、物联网集成和针对内核级代码的日益复杂的威胁行为者而扩展时,正在涌入维护者。
需要的不是更好的AI检测,而是更智能的分诊:能够了解哪些模式对特定代码库真正重要、理解围绕特定子系统使用方式的上下文、并能区分「这可能在理论上崩溃」与「这正在被主动利用」的系统。在那之前,旨在保护Linux的工具正在成为其最大的维护负担之一。内核驱动着互联网。它的维护者正在因阅读关于它的AI生成报告而精疲力竭。