研究 综合自 1 个来源

96GB内存跑万亿参数Kimi:流式专家技术突破

要点

  • Kimi K2.5(万亿参数,320亿激活权重)在96GB内存MacBook运行
  • 流式专家每次从SSD读取约12GB权重数据
  • 内存需求比完整加载模型削减约96%
  • 同一技术使Qwen3.5-397B能在iPhone以0.6 tokens/秒运行
  • autoresearch循环正积极优化流式管道
参考来源 (1)
  1. [1] 流式专家技术实现:96GB内存跑万亿参数模型 — Simon Willison's Weblog

一台内存不足主流游戏电脑的MacBook,运行起了万亿参数的语言模型。Moonshot AI发布的Kimi K2.5——这个拥有万亿参数、每次仅激活320亿权重的巨型AI系统——在M2 Max MacBook Pro的96GB统一内存上完成了推理。实现这一突破的技术叫做流式专家(streaming experts),它从根本上改变了我们对消费级硬件部署超大神经网络的认知。

传统大语言模型需要将所有参数同时加载到内存中。万亿参数模型以fp16精度计算需要约2TB内存,远超任何消费级设备。流式专家通过利用混合专家(MoE)架构的稀疏激活特性绕过了这一限制——系统将专家权重存储在SSD上,仅在生成每个token时从存储中流式传输相关专家,每次大约从磁盘读取12GB数据。

从概念验证到消费级硬件的进展快得惊人。五天前,研究员Dan Woods刚演示了Qwen3.5-397B-A17B在48GB内存上运行。短短一个工作周后,社区优化者就将技术推进到万亿参数级别——@seikixtc实现了Kimi K2.5的突破,@anemll则单独演示了Qwen3.5-397B在iPhone上以0.6 tokens/秒的速度运行,这一速度堪比早期拨号上网,但运行在几乎没有主动散热的设备上。

这一突破的影响远超猎奇本身。流式专家挑战了「前沿AI必须依赖数据中心基础设施」的既有假设。Kimi K2.5的320亿活跃参数与Llama 3.1 70B等模型的参数总量相当,但流式方案将内存需求削减了约96%。对于无法负担昂贵云端GPU集群的研究者和开发者而言,这项技术打开了此前经济上不可行的实验空间。

当然存在权衡。从SSD读取权重增加了纯内存推理所避免的延迟,token生成速度与优化后的云端部署相比仍有差距。但这项技术仍在快速演进——autoresearch循环正积极优化流式管道,每次迭代都在相同硬件约束下压榨更多性能。

这究竟是真正的前沿AI民主化,还是仅仅将瓶颈转移到存储带宽,答案尚待揭晓。但有一点可以确定:「万亿参数模型必须依赖万亿级基础设施」的假设已不再牢不可破。

0:00