研究综合自 1 个来源

苹果ParaRNN突破序列依赖，数十亿参数循环网络并行训练首成

要点

• ParaRNN首次实现数十亿参数RNN并行训练
• 循环网络以远低于transformer的内存消耗达成相近基准性能
• 边缘设备首次获得此前仅服务器能运行的十亿参数模型能力
• 边缘AI场景出现transformer之外的可落地架构选择
• 苹果机器学习研究团队2026年4月23日发布ParaRNN

参考来源 (1)

[1] 苹果ParaRNN实现大规模RNN并行训练 — Apple Machine Learning Research ↗

在一个循环层内部，token不再等待前一步完成，而是并行流动——这打破了困扰循环神经网络三十年的序列依赖链。苹果机器学习研究团队周四发表的ParaRNN，正是通过重构计算图，首次实现了数十亿参数RNN的并行训练。

这一突破的意义远超学术里程碑。长期以来，transformer主导了大语言模型的发展，但注意力机制在推理时需要消耗大量算力和内存。相比之下，循环神经网络通过维护隐状态逐token处理，理论上能实现显著更高的效率。真正的障碍在于：没人能以同等规模训练它们——直到ParaRNN出现。

ParaRNN解决的核心问题是循环架构的"并行化壁垒"。传统RNN中，每个时间步依赖前一时刻的隐状态，导致跨GPU的分布式训练效率极低。苹果的研究重新设计计算图，使RNN首次能在序列维度上并行训练——类似transformer同时处理所有token的方式。结果是：循环网络终于可以与注意力模型在同等规模下竞争。

对边缘部署而言，这是一次范式转变。十亿参数的transformer仅单次推理就需要数GB内存，只有配备专用加速器的服务器才能运行。相同参数量的RNN只需占用一小部分内存，因为它只需存储和更新隐状态，无需对所有历史token进行注意力计算。苹果研究者证明了ParaRNN训练出的RNN能在标准基准上匹配或超越transformer性能，同时将内存带宽需求降低数个量级。

更深远的意义在于：ParaRNN为LLM架构选择打开了新的可能性。长期以来，工程师们选择transformer并非因为它在所有场景都最优，而是因为它能scale。ParaRNN表明，架构图景可能比预想的更多元——尤其在算力受限、低延迟要求或需本地运行的部署场景中。

苹果的工作并非宣称RNN将全面取代transformer。训练效率只是评估维度之一，transformer在某些序列建模任务上仍有优势。但在边缘AI领域——手机、可穿戴设备、物联网、自动驾驶系统——能用远低于transformer的资源实现相近能力的模型，将彻底改变"什么可以部署"的判断标准。ParaRNN不仅是学术贡献，更是一个信号：架构之争远未结束，下一代部署模型的面貌可能与今天大不相同。