行业 综合自 3 个来源

GPU数量战落幕,算力竞争转向Token效率

要点

  • Vera Rubin NVL72将每Token推理成本较上代降低10倍
  • A5X实例多站点部署可扩展至96万颗Rubin GPU
  • Parakeet-TDT支持25种欧洲语言,每小时转录费用不足一美分
  • AWS SageMaker通过NVIDIA AIPerf集成实现GPU调优自动化
  • Token经济已超越GPU数量成为核心竞争指标
参考来源 (3)
  1. [1] 谷歌云A5X实例搭载NVIDIA Rubin GPU — NVIDIA AI Blog
  2. [2] 英伟达Parakeet模型大幅降低音频转录成本 — AWS Machine Learning Blog
  3. [3] AWS SageMaker新增生成式AI推理优化推荐 — AWS Machine Learning Blog

过去多年,AI基础设施竞争遵循一个简单逻辑:清点GPU数量,胜负即分。如今这个公式已经失效。本周NVIDIA与Google Cloud、AWS的两项发布,揭示了行业衡量竞争优势的根本转变——战场从原始芯片数量,转向每Token成本、推理效率和每兆瓦算力所能提取的价值。

矛盾显而易见。GPU采购仍然重要,但它已不再决定结果。NVIDIA在Google Cloud Next上发布的Vera Rubin NVL72系统,相比上一代实现Token推理成本降低10倍每兆瓦Token吞吐量提升10倍。这不是渐进式改进,而是AI部署经济学上的结构性变化。单站点集群可扩展至8万颗Rubin GPU,多站点部署达96万颗。与此同时,AWS公布的基准测试显示,开源模型Parakeet-TDT-0.6B在覆盖25种欧洲语言、转录错误率保持6.34%的同时,实现每小时音频转录费用不足一美分。大规模亚美分级转录不再是研究论文结果,而是生产级能力。

这催生了两个阵营的真正冲突。一方仍在优化GPU库存——追逐H100配额、以加速器数量衡量基础设施容量、将硬件采购视为主要竞争杠杆。另一方则围绕Token经济重新布局——通过Amazon SageMaker的NVIDIA AIPerf基准测试消除数周的手动调优、根据每Token成本而非原始吞吐量选择实例类型、将效率作为核心指标。讽刺的是,第二阵营往往运行着比第一阵营更多的GPU——只是他们不再谈论数量。

旧模式的论点并非全然错误。GPU供应约束已经缓解,Blackwell供货改善,基础设施规模与AI能力相关的论点部分成立——前沿模型训练仍需大规模加速器阵列。但推理将主导未来十年的AI算力消耗,它奖励的是效率而非其他。一项将每Token成本降低10倍的改进,比GPU库存增加10倍更有价值——因为二阶效应是客户可以在相同预算下运行10倍多的推理。

接下来不会解决这一冲突,而是加速分歧。云计算厂商将在经过验证的部署配置上竞争——如SageMaker现在通过NVIDIA AIPerf自动呈现的——而非原始实例数量。模型开发者将围绕三年前还不存在的效率指标进行优化。基础设施讨论将越来越多地以Token成本而非芯片价格来衡量。NVIDIA同时出现在本周两项发布中,正在发出信号:其下一个竞争护城河不是GPU本身,而是围绕GPU的全栈效率提升。军备竞赛已经结束,Token经济时代正式开始。

0:00