斯坦福大学的一块芯片能在运行AI工作负载时提速8倍,能耗却只有标准CPU的七十分之一。这不是预测,也不是实验室基准测试——这是一块实际可用的硅芯片,今年就会上市。它的诀窍是利用稀疏性:大型神经网络中大多数参数都是零或接近于零。
问题从来不在理论层面。稀疏性已被研究了多年,研究者知道跳过零值计算应该能带来巨大收益。问题在于此前没有任何硬件能真正高效地跳过这些零值——直到现在。
斯坦福团队在奥卢科顿教授的领导下,制造了首块从底层硬件架构、固件层到软件层全面利用稀疏性的芯片。以往的方法都是在局部优化稀疏性——这里一个聪明的编译器,那里一块改进的加速器——但大部分零值跳过的优化空间都被浪费了。这块芯片根本不计算零值。
"我们必须从零开始重新设计硬件、低层固件和软件,以充分利用稀疏性,"团队在IEEE Spectrum上发表的文章中解释道。
节能效果非常显著。在稀疏工作负载上,芯片功耗仅为传统CPU的七十分之一,计算速度平均提升8倍。在密集工作负载——传统不利用稀疏性的计算——上,芯片性能仍然达到或超过CPU水平。
实际影响改变了嵌入式AI的可能性。Meta最新的Llama版本包含2万亿参数。类似的大模型正被推向边缘设备、汽车和工业传感器。如果能跨整个计算栈充分利用稀疏性,目前需要服务器机架才能运行的模型就能在手握的设备上运行。
这才是改变游戏规则的部分。这不仅仅是芯片高效的问题——而是稀疏性,这个长期停留在理论优化的概念,如今在硅芯片上实现了规模化应用。对于需要本地AI能力、同时又不能消耗太多电量和带宽的数十亿设备来说,理论与实践之间的鸿沟刚刚消失。