研究 综合自 1 个来源

电网告急倒逼AI算力去中心化

要点

  • 多地区电网已难以承受AI训练工作负载
  • 英伟达Spectrum-XGS与思科8223实现跨数据中心AI训练
  • Akash Network众包闲置GPU算力减少浪费
  • 联邦学习保留本地数据,仅共享模型参数更新
  • 去中心化将训练转向可获取的可再生能源
参考来源 (1)
  1. [1] 去中心化训练或可解决AI能耗难题 — IEEE Spectrum AI

数十年来,人工智能行业一直通过建设更大规模的数据中心来解决更复杂的问题。如今这一策略撞上了无法用更多GPU强行突破的壁垒。从弗吉尼亚到新加坡,各地的电网都在AI训练工作负载的重压下岌岌可危,而数字冷酷无情:下一代前沿模型所需的电力,在已经承压的电网中根本不存在。矛盾显而易见:建设人人期待的人工智能未来,需要能够快速建成的能源基础设施。除非架构彻底改变。

这就是去中心化训练从学术好奇升级为生存必需的原因。该方案不再将所有计算集中在超大规模数据中心,而是在独立节点网络中分配模型训练——包括大学实验室中的闲置服务器、企业中利用率不足的计算集群,甚至是太阳能供电的家庭计算机。目标并非优雅,而是生存:在有算力的地方就地取用,而非要求能源基础设施迎头赶上。

技术环节正在最终对齐。英伟达的Spectrum-XGS以太网平台专为跨规模联网设计,能够在地理位置分散的数据中心之间提供人工智能训练性能——这是两年前根本不存在的技术。思科紧随其后推出了8223路由器,明确为连接相距数百英里的人工智能集群而设计。这些并非增量改进,而是对训练实际发生地点的根本性重新定位。Akash Network作为点对点云市场,让组织能够出租闲置GPU资源,其采用量急剧上升,因为企业意识到现有硬件大量闲置,而新工作负载却在挨饿。

在软件层面,联邦学习允许在不集中原始数据的情况下进行训练——这对无法共享专有信息的组织而言至关重要。模型参数在参与者之间流动,而训练数据始终留在原地。这既解决了隐私问题,也回应了日益增长的认识:将海量数据集传输到分布式节点是不现实的,带宽约束使之难以实现。

去中心化将能源问题从瓶颈转化为可优化的设计约束。训练工作可以迁移到廉价可再生电力可用的地区,随太阳能发电的峰谷在区域间切换。没有单一电网需要承受前沿模型训练运行的全部负荷。没有单点故障可以中断进展。架构因其分布式而变得更具弹性。

批评者会指出,协调分布式节点会引入通信开销和带宽约束,这是纯粹集中式系统所避免的。这一点无可辩驳。在互联网上传输模型更新,而非通过高速数据中心互联传输,确实会引入延迟。去中心化学习在同等硬件上的收敛速度比集中式训练慢。这些是真实存在的代价,也是去中心化长期停留在理论阶段的原因。

但问题已不再是去中心化训练是否可行。问题在于人工智能行业能否在世界各地电网报告创纪录压力的同时,继续将能源基础设施视为事后考虑。能源的账本已经改变。架构必须跟进。一项两年前看起来还像研究玩具的技术,如今已成为没有其他选择的行业最可行的前进路径。

0:00