研究综合自 1 个来源

96GB内存跑万亿参数Kimi：流式专家技术突破

要点

• Kimi K2.5（万亿参数，320亿激活权重）在96GB内存MacBook运行
• 流式专家每次从SSD读取约12GB权重数据
• 内存需求比完整加载模型削减约96%
• 同一技术使Qwen3.5-397B能在iPhone以0.6 tokens/秒运行
• autoresearch循环正积极优化流式管道

参考来源 (1)

[1] 流式专家技术实现：96GB内存跑万亿参数模型 — Simon Willison's Weblog ↗

一台内存不足主流游戏电脑的MacBook，运行起了万亿参数的语言模型。Moonshot AI发布的Kimi K2.5——这个拥有万亿参数、每次仅激活320亿权重的巨型AI系统——在M2 Max MacBook Pro的96GB统一内存上完成了推理。实现这一突破的技术叫做流式专家（streaming experts），它从根本上改变了我们对消费级硬件部署超大神经网络的认知。

传统大语言模型需要将所有参数同时加载到内存中。万亿参数模型以fp16精度计算需要约2TB内存，远超任何消费级设备。流式专家通过利用混合专家（MoE）架构的稀疏激活特性绕过了这一限制——系统将专家权重存储在SSD上，仅在生成每个token时从存储中流式传输相关专家，每次大约从磁盘读取12GB数据。

从概念验证到消费级硬件的进展快得惊人。五天前，研究员Dan Woods刚演示了Qwen3.5-397B-A17B在48GB内存上运行。短短一个工作周后，社区优化者就将技术推进到万亿参数级别——@seikixtc实现了Kimi K2.5的突破，@anemll则单独演示了Qwen3.5-397B在iPhone上以0.6 tokens/秒的速度运行，这一速度堪比早期拨号上网，但运行在几乎没有主动散热的设备上。

这一突破的影响远超猎奇本身。流式专家挑战了「前沿AI必须依赖数据中心基础设施」的既有假设。Kimi K2.5的320亿活跃参数与Llama 3.1 70B等模型的参数总量相当，但流式方案将内存需求削减了约96%。对于无法负担昂贵云端GPU集群的研究者和开发者而言，这项技术打开了此前经济上不可行的实验空间。

当然存在权衡。从SSD读取权重增加了纯内存推理所避免的延迟，token生成速度与优化后的云端部署相比仍有差距。但这项技术仍在快速演进——autoresearch循环正积极优化流式管道，每次迭代都在相同硬件约束下压榨更多性能。

这究竟是真正的前沿AI民主化，还是仅仅将瓶颈转移到存储带宽，答案尚待揭晓。但有一点可以确定：「万亿参数模型必须依赖万亿级基础设施」的假设已不再牢不可破。