行业综合自 3 个来源

GPU数量战落幕，算力竞争转向Token效率

要点

• Vera Rubin NVL72将每Token推理成本较上代降低10倍
• A5X实例多站点部署可扩展至96万颗Rubin GPU
• Parakeet-TDT支持25种欧洲语言，每小时转录费用不足一美分
• AWS SageMaker通过NVIDIA AIPerf集成实现GPU调优自动化
• Token经济已超越GPU数量成为核心竞争指标

参考来源 (3)

[1] 谷歌云A5X实例搭载NVIDIA Rubin GPU — NVIDIA AI Blog ↗
[2] 英伟达Parakeet模型大幅降低音频转录成本 — AWS Machine Learning Blog ↗
[3] AWS SageMaker新增生成式AI推理优化推荐 — AWS Machine Learning Blog ↗

过去多年，AI基础设施竞争遵循一个简单逻辑：清点GPU数量，胜负即分。如今这个公式已经失效。本周NVIDIA与Google Cloud、AWS的两项发布，揭示了行业衡量竞争优势的根本转变——战场从原始芯片数量，转向每Token成本、推理效率和每兆瓦算力所能提取的价值。

矛盾显而易见。GPU采购仍然重要，但它已不再决定结果。NVIDIA在Google Cloud Next上发布的Vera Rubin NVL72系统，相比上一代实现Token推理成本降低10倍、每兆瓦Token吞吐量提升10倍。这不是渐进式改进，而是AI部署经济学上的结构性变化。单站点集群可扩展至8万颗Rubin GPU，多站点部署达96万颗。与此同时，AWS公布的基准测试显示，开源模型Parakeet-TDT-0.6B在覆盖25种欧洲语言、转录错误率保持6.34%的同时，实现每小时音频转录费用不足一美分。大规模亚美分级转录不再是研究论文结果，而是生产级能力。

这催生了两个阵营的真正冲突。一方仍在优化GPU库存——追逐H100配额、以加速器数量衡量基础设施容量、将硬件采购视为主要竞争杠杆。另一方则围绕Token经济重新布局——通过Amazon SageMaker的NVIDIA AIPerf基准测试消除数周的手动调优、根据每Token成本而非原始吞吐量选择实例类型、将效率作为核心指标。讽刺的是，第二阵营往往运行着比第一阵营更多的GPU——只是他们不再谈论数量。

旧模式的论点并非全然错误。GPU供应约束已经缓解，Blackwell供货改善，基础设施规模与AI能力相关的论点部分成立——前沿模型训练仍需大规模加速器阵列。但推理将主导未来十年的AI算力消耗，它奖励的是效率而非其他。一项将每Token成本降低10倍的改进，比GPU库存增加10倍更有价值——因为二阶效应是客户可以在相同预算下运行10倍多的推理。

接下来不会解决这一冲突，而是加速分歧。云计算厂商将在经过验证的部署配置上竞争——如SageMaker现在通过NVIDIA AIPerf自动呈现的——而非原始实例数量。模型开发者将围绕三年前还不存在的效率指标进行优化。基础设施讨论将越来越多地以Token成本而非芯片价格来衡量。NVIDIA同时出现在本周两项发布中，正在发出信号：其下一个竞争护城河不是GPU本身，而是围绕GPU的全栈效率提升。军备竞赛已经结束，Token经济时代正式开始。