开发工具综合自 1 个来源

Meta将AI内核优化从数周压缩至数小时

要点

• Meta的KernelEvolve将专家数周工作压缩至4小时自动化搜索
• 在NVIDIA GPU上实现超过60%推理吞吐量提升，MTIA芯片上超过25%
• 跨Triton、CUDA、HIP及领域特定语言生成优化内核
• ISCA 2026论文公开发布——Meta向全行业开源该能力
• 自动化消除了内核专业技能作为AI基础设施竞争壁垒的地位

参考来源 (1)

[1] Meta推出KernelEvolve优化工具 — Meta Engineering ↗

Meta将原本需要专家耗费四周的内核优化工作，压缩至四个小时的自动化搜索。这一数字——4倍的时间压缩——是Meta推出的KernelEvolve系统的核心成果。该系统是一种智能内核编写系统，在NVIDIA GPU上实现了超过60%的推理吞吐量提升，在Meta自研MTIA芯片上实现了超过25%的训练吞吐量提升。研究成果将在ISCA 2026会议上发表。

KernelEvolve将内核优化视为一个搜索问题。专用任务管理框架评估每个候选内核，将诊断结果反馈给大语言模型，并驱动对数百种替代方案进行持续探索。这个循环——生成、性能分析、反馈、迭代——自动运行，取代了工程师传统上需要手动完成的工作：分析瓶颈、提出修复方案、实现修改、跨异构硬件调试，然后重复。

手动优化的方式已经无法 scale。随着人工智能模型在各种硬件类型上激增——从NVIDIA GPU到AMD GPU再到定制芯片——每种模型与硬件的组合都需要优化内核。用Triton、CUDA或HIP编写这些内核需要专业知识，而具备这种能力的工程师少之又少，能够大规模招聘这类人才的公司更是寥寥无几。

KernelEvolve使这一流程实现自动化。它能在Triton、Cute DSL、FlyDSL等高级领域特定语言以及CUDA、HIP、MTIA C++等低级语言中生成内核。它能自动在这些表示形式中搜索，无需为每个平台配备专业人员即可适应硬件特性。

性能数据验证了这种方法。除了在NVIDIA H100上实现超过60%的推理性能提升外，Meta还测量到在其自研芯片上训练吞吐量提升超过25%——这是一种缺乏主流GPU可用供应商优化库的架构。这种跨硬件的灵活性正是关键：同一系统无论目标是数据中心GPU还是定制ASIC都能工作。

最重要的是Meta对这一能力的处理方式。通过在ISCA 2026上发表KernelEvolve的架构论文并公开论文，Meta正在向整个行业提供一种已在生产中得到验证的工具。这并非慈善——而是基础设施战略。当整个生态系统能够更快优化时，基础设施成本下降，人工智能部署规模扩大。作为数百万GPU的购买者和运营者，Meta从中受益。

但竞争影响更为深远。内核优化曾是一道护城河：一种让大公司从硬件中提取更多性能的稀缺技能。如果这一过程实现自动化，这道护城河将消失。资源有限的小型团队借助通用硬件，现在也能与拥有专属内核专家的团队在每芯片效率上匹敌。杠杆从拥有专业人才转向拥有更好的自动化。

对于从业者而言，这是立竿见影的。团队可以将工程时间从内核调优重新分配到模型架构上。随着优化变得更便宜、更快捷，行业可以预期基础设施成本下降。硬件供应商需要在原始性能而非软件生态系统锁定方面展开竞争。

内核——所有其他运行所在的底层计算基板——不再是一种专业技艺。它正在成为软件。