研究 综合自 1 个来源

苹果ParaRNN突破序列依赖,数十亿参数循环网络并行训练首成

要点

  • ParaRNN首次实现数十亿参数RNN并行训练
  • 循环网络以远低于transformer的内存消耗达成相近基准性能
  • 边缘设备首次获得此前仅服务器能运行的十亿参数模型能力
  • 边缘AI场景出现transformer之外的可落地架构选择
  • 苹果机器学习研究团队2026年4月23日发布ParaRNN
参考来源 (1)
  1. [1] 苹果ParaRNN实现大规模RNN并行训练 — Apple Machine Learning Research

在一个循环层内部,token不再等待前一步完成,而是并行流动——这打破了困扰循环神经网络三十年的序列依赖链。苹果机器学习研究团队周四发表的ParaRNN,正是通过重构计算图,首次实现了数十亿参数RNN的并行训练。

这一突破的意义远超学术里程碑。长期以来,transformer主导了大语言模型的发展,但注意力机制在推理时需要消耗大量算力和内存。相比之下,循环神经网络通过维护隐状态逐token处理,理论上能实现显著更高的效率。真正的障碍在于:没人能以同等规模训练它们——直到ParaRNN出现。

ParaRNN解决的核心问题是循环架构的"并行化壁垒"。传统RNN中,每个时间步依赖前一时刻的隐状态,导致跨GPU的分布式训练效率极低。苹果的研究重新设计计算图,使RNN首次能在序列维度上并行训练——类似transformer同时处理所有token的方式。结果是:循环网络终于可以与注意力模型在同等规模下竞争。

对边缘部署而言,这是一次范式转变。十亿参数的transformer仅单次推理就需要数GB内存,只有配备专用加速器的服务器才能运行。相同参数量的RNN只需占用一小部分内存,因为它只需存储和更新隐状态,无需对所有历史token进行注意力计算。苹果研究者证明了ParaRNN训练出的RNN能在标准基准上匹配或超越transformer性能,同时将内存带宽需求降低数个量级。

更深远的意义在于:ParaRNN为LLM架构选择打开了新的可能性。长期以来,工程师们选择transformer并非因为它在所有场景都最优,而是因为它能scale。ParaRNN表明,架构图景可能比预想的更多元——尤其在算力受限、低延迟要求或需本地运行的部署场景中。

苹果的工作并非宣称RNN将全面取代transformer。训练效率只是评估维度之一,transformer在某些序列建模任务上仍有优势。但在边缘AI领域——手机、可穿戴设备、物联网、自动驾驶系统——能用远低于transformer的资源实现相近能力的模型,将彻底改变"什么可以部署"的判断标准。ParaRNN不仅是学术贡献,更是一个信号:架构之争远未结束,下一代部署模型的面貌可能与今天大不相同。

0:00