开源综合自 1 个来源

开源AI模型的资金困局

要点

• 训练成本已超过单个开源实验室的可持续承受能力
• Qwen、Ai2和Meta在算力成本上升中均调整了战略
• Nvidia Nemotron等联盟模型提供部分解决路径
• 更小规模可微调模型将主导开源生态系统
• 接近前沿的开放发布正变得经济上不理性

参考来源 (1)

[1] 开源模型实验室面临生存危机 — Interconnects ↗

开源AI模型运动正在消亡——不是戏剧性的崩塌，而是缓慢的财务挤压，让接近前沿的开放权重模型变得越来越罕见。这不是关于企业背叛或意识形态失败的故事。简单的算术就能解释：训练有竞争力模型的成本增长，已经超过了那些致力于自由发布模型的组织所能获得的资源。

证据已经显现。近几个月来，高调的人员离职重塑了Qwen和Ai2两家曾经看起来结构稳固的实验室。Meta尽管发布了Llama，但在竞争压力下不断调整重心。中国的初创公司——Moonshot AI、MiniMax、Z.ai——孕育了 notable 的开源模型家族，但其资金基础在面临数亿美元级别的前沿训练成本时显得摇摇欲坠。斯坦福Halu实验室的Percy Liang直言：维护接近前沿的开源模型需要资源，任何单一使命驱动的组织都无法无限期承担。

训练成本问题随着每一代模型而加剧。保持竞争力所需的算力呈指数增长，而愿意免费发布这些模型的组织数量却没有跟上步伐。三年前还能负担得起训练和开源7B模型的实验室，如今很难在70B或405B规模上复制这一壮举。开放发布的能力边界相对于前沿不断收缩。

有人认为 consortium 资助可以解决这个问题。Nvidia的Nemotron代表了一家财力雄厚的公司尝试 bootstrapping 稳定的开源模型管道。Arcee AI、Thinking Machines，甚至Google的Gemma都找到了围绕发布更小规模、可微调的模型构建商业模式的路径。这些方法并非毫无意义，代表了对真实结构性问题的真实结构性回应。

但它们并没有解决核心矛盾。由consortium资助的开源模型引入了治理问题：由谁决定发布什么、何时发布、以什么许可证发布？以商业模式驱动的更小模型发布解决了特定能力层级可持续性问题，同时明确放弃了前沿阵地。仍能负担训练最佳模型的的公司面临简单选择：将这些资源用于产生收入的产品，还是免费发放并希望生态系统收益以某种方式实现。在任何有替代机会的资本环境中，后者是不理性的。

最讽刺的是，开源倡导者曾认为Meta的Llama发布展示了一种可持续模式。他们实际上表明，一家大型公司可以在开放符合战略利益时补贴开源。当这些利益发生变化——而且它们确实在反复变化——开源发布就成了可以谈判的选项。没有任何使命宣言能在训练成本达到九位数时凌驾于资产负债表之上。

剩余的是一个更小模型、微调框架和服务专业用例的基础设施的碎片化生态系统——这些在封闭前沿系统无法经济地服务的领域表现出色。但这与最初设想的开源AI完全不同：任何人可以运行、修改和研究的接近前沿能力的可靠途径。开源AI的梦想没有消亡，但它已经收缩到更小的领地——强大的更小模型和来自资金充足玩家的consortium资助发布——而前沿正进一步远离可及范围。问题不再是开源模型能否与闭源模型竞争，而是资助它们的组织能否存活足够长的时间以产生影响。