过去多年,AI基础设施竞争遵循一个简单逻辑:清点GPU数量,胜负即分。如今这个公式已经失效。本周NVIDIA与Google Cloud、AWS的两项发布,揭示了行业衡量竞争优势的根本转变——战场从原始芯片数量,转向每Token成本、推理效率和每兆瓦算力所能提取的价值。
矛盾显而易见。GPU采购仍然重要,但它已不再决定结果。NVIDIA在Google Cloud Next上发布的Vera Rubin NVL72系统,相比上一代实现Token推理成本降低10倍、每兆瓦Token吞吐量提升10倍。这不是渐进式改进,而是AI部署经济学上的结构性变化。单站点集群可扩展至8万颗Rubin GPU,多站点部署达96万颗。与此同时,AWS公布的基准测试显示,开源模型Parakeet-TDT-0.6B在覆盖25种欧洲语言、转录错误率保持6.34%的同时,实现每小时音频转录费用不足一美分。大规模亚美分级转录不再是研究论文结果,而是生产级能力。
这催生了两个阵营的真正冲突。一方仍在优化GPU库存——追逐H100配额、以加速器数量衡量基础设施容量、将硬件采购视为主要竞争杠杆。另一方则围绕Token经济重新布局——通过Amazon SageMaker的NVIDIA AIPerf基准测试消除数周的手动调优、根据每Token成本而非原始吞吐量选择实例类型、将效率作为核心指标。讽刺的是,第二阵营往往运行着比第一阵营更多的GPU——只是他们不再谈论数量。
旧模式的论点并非全然错误。GPU供应约束已经缓解,Blackwell供货改善,基础设施规模与AI能力相关的论点部分成立——前沿模型训练仍需大规模加速器阵列。但推理将主导未来十年的AI算力消耗,它奖励的是效率而非其他。一项将每Token成本降低10倍的改进,比GPU库存增加10倍更有价值——因为二阶效应是客户可以在相同预算下运行10倍多的推理。
接下来不会解决这一冲突,而是加速分歧。云计算厂商将在经过验证的部署配置上竞争——如SageMaker现在通过NVIDIA AIPerf自动呈现的——而非原始实例数量。模型开发者将围绕三年前还不存在的效率指标进行优化。基础设施讨论将越来越多地以Token成本而非芯片价格来衡量。NVIDIA同时出现在本周两项发布中,正在发出信号:其下一个竞争护城河不是GPU本身,而是围绕GPU的全栈效率提升。军备竞赛已经结束,Token经济时代正式开始。