应用 综合自 1 个来源

欧洲核子研究中心将AI模型直接写入FPGA芯片

要点

  • 欧洲核子研究中心将AI模型写入FPGA处理每秒4000万次碰撞
  • 推理延迟从毫秒级降至微秒级
  • 功耗仅几瓦,对比GPU集群节省大量电力
  • 模型压缩工具以开源形式发布
  • 自动驾驶和机器人领域表现出明确商业兴趣
参考来源 (1)
  1. [1] CERN在FPGA上部署极简AI模型筛选LHC数据 — Hacker News AI

在欧洲核子研究中心大型强子对撞机的控制室里,每次质子碰撞的间隔仅有25纳秒。在这转瞬即逝的时间里,物理学家必须做出一个关键判断:这一事件是否包含值得保存的数据,还是应该被永远丢弃在数字虚空中?传统方案——将所有数据传输到大型计算集群进行后期筛选——在面对每秒4000万次碰撞事件的数据洪流时,已经彻底失效。

正是这个难题迫使欧洲核子研究中心采取了一种非常规方案。他们没有建造更庞大的云计算基础设施,而是做了一件大多数人工智能从业者从未考虑过的事:将神经网络直接写入硅芯片。具体而言,他们将Transformer架构压缩到足够小的尺寸,使其能够运行在探测器硬件旁边嵌入的FPGA芯片上。这些模型在微秒级时间内完成推理,在数据还未离开传感器阵列时就已经做出了筛选决策。

驱动这一决策的技术约束极为严苛。即便是配备GPU加速的云端推理,延迟也以毫秒计。而在每秒4000万次碰撞的强度下,这个时间差意味着整个类别的事件数据都会丢失。有限的带宽根本无法支撑如此庞大的数据传输量。因此,他们没有选择将计算资源转移到数据端,而是将计算能力直接嵌入硬件本身。

由此产生的超低延迟推理系统仅消耗几瓦电力,远低于GPU集群的功耗需求。按照商业标准衡量,这些模型体积很小,通常不超过10兆字节,但针对研究人员关注的特定物理信号进行了优化。模型训练在云端使用历史碰撞数据进行,完成验证后,权重参数被直接编译写入FPGA结构中。

这种软硬件协同设计的方法正吸引着面临类似边缘推理挑战的行业关注。自动驾驶汽车需要毫秒级的决策能力,工业机器人要求亚微秒级的响应速度,金融服务系统的成交延迟以纳秒计量。在这些场景中,存在着相同的根本矛盾:云端AI速度太慢,但传统嵌入式系统又过于简陋,无法完成复杂的分类任务。

欧洲核子研究中心的解决方案揭示了一条中间路径。通过训练专门针对硬件部署的小型模型,然后将其写入可重构硅芯片,组织能够实现云端架构在物理上无法达到的推理速度。功耗效率的提升进一步放大了这一优势——运行神经网络的FPGA消耗的电力与GPU集群相比简直是九牛一毛。

项目团队已将模型压缩工具开源,希望加速粒子物理领域之外的采用。早期商业兴趣来自半导体制造商——他们在芯片制造过程中进行测试,以及寻求实时异常检测的医学影像公司。共同的特点是:这些场景都对延迟极度敏感,且无法依赖云端连接。

这一 irony 令人深思。一家在严峻资源约束下运营的研究机构——预算有限、计算硬件空间狭小,且面临人类历史上最庞大的数据处理挑战——却探索出大型科技公司凭借无限云资源从未开发出的方案。有时候,最严苛的约束反而催生最具价值的创新。欧洲核子研究中心开发边缘AI并非因为技术先进,而是因为他们别无选择。

0:00