研究综合自 1 个来源

斯坦福芯片用稀疏AI节能70倍

要点

参考来源 (1)

斯坦福大学的一块芯片能在运行AI工作负载时提速8倍，能耗却只有标准CPU的七十分之一。这不是预测，也不是实验室基准测试——这是一块实际可用的硅芯片，今年就会上市。它的诀窍是利用稀疏性：大型神经网络中大多数参数都是零或接近于零。

问题从来不在理论层面。稀疏性已被研究了多年，研究者知道跳过零值计算应该能带来巨大收益。问题在于此前没有任何硬件能真正高效地跳过这些零值——直到现在。

斯坦福团队在奥卢科顿教授的领导下，制造了首块从底层硬件架构、固件层到软件层全面利用稀疏性的芯片。以往的方法都是在局部优化稀疏性——这里一个聪明的编译器，那里一块改进的加速器——但大部分零值跳过的优化空间都被浪费了。这块芯片根本不计算零值。

"我们必须从零开始重新设计硬件、低层固件和软件，以充分利用稀疏性，"团队在IEEE Spectrum上发表的文章中解释道。

节能效果非常显著。在稀疏工作负载上，芯片功耗仅为传统CPU的七十分之一，计算速度平均提升8倍。在密集工作负载——传统不利用稀疏性的计算——上，芯片性能仍然达到或超过CPU水平。

实际影响改变了嵌入式AI的可能性。Meta最新的Llama版本包含2万亿参数。类似的大模型正被推向边缘设备、汽车和工业传感器。如果能跨整个计算栈充分利用稀疏性，目前需要服务器机架才能运行的模型就能在手握的设备上运行。

这才是改变游戏规则的部分。这不仅仅是芯片高效的问题——而是稀疏性，这个长期停留在理论优化的概念，如今在硅芯片上实现了规模化应用。对于需要本地AI能力、同时又不能消耗太多电量和带宽的数十亿设备来说，理论与实践之间的鸿沟刚刚消失。