研究综合自 2 个来源

苹果押注归一化流：视频生成范式暗战

要点

• STARFlow-V基于归一化流而非扩散模型构建
• 单次前向传递生成，无需数百步迭代去噪
• 输出精确对数似然，支持原则性质量筛选
• 苹果选择公开发布，逆行业闭源趋势而行
• 缺乏与Sora、Runway等扩散模型的质量对比数据
• 端到端学习，无需辅助目标函数

参考来源 (2)

[1] 苹果STARFlow-V：用归一化流做视频生成 — Apple Machine Learning Research ↗
[2] 苹果用伪标注管道扩大手语数据规模 — Apple Machine Learning Research ↗

视频生成赛道上，Sora、Veo、Runway、Kling正在激烈竞争——它们全都使用扩散模型。苹果是唯一选择不同技术路线的玩家。本周四，苹果机器学习研究团队发布了STARFlow-V，这是一个基于归一化流的视频生成系统，而非当前主流的扩散模型。这是一次对行业共识的刻意偏离，也提醒着业界：扩散模型不是唯一的选择。

归一化流是一种基于似然的生成模型，通过可逆变换学习数据分布。与扩散模型不同——后者通过添加噪声并学习逆转过程来生成内容——归一化流在输入与输出之间保持精确对应。每一个生成的像素都可以通过确定性路径追溯回去。STARFlow-V将这一原理应用于视频，在扩展时空推理的同时，保留了归一化流的核心优势：原生似然估计、端到端学习，以及理论上严谨的评估指标。

从工程角度看，这可能带来生成速度的量级提升。扩散模型需要数百步迭代去噪才能生成一段视频，每一步都是完整的神经网络前向传播。归一化流则通过学习到的变换实现单次前向传递即可完成生成。STARFlow-V还具备因果预测能力，可以基于过去帧预测未来帧，这对于保持长视频的连贯性至关重要。

苹果的赌注存在真实风险。归一化流在处理视频所需的高维、长程依赖关系时历来表现不佳，维持可逆性的架构设计难度很大。更重要的是，论文中没有与其他模型的质量对比数据——在视频生成质量仍是最核心指标的当下，这一点不容忽视。

但时机选择有其合理性。随着视频生成从尝鲜走向基础设施，扩散模型的局限已不只是理论问题。推理成本随规模累积，无法精确计算输出概率值——扩散模型只能近似而非精确计算——这对安全过滤和质量控制构成挑战。归一化流则直接解决了这两个痛点。STARFlow-V能输出精确的对数似然值，为视频筛选决策提供原则性依据。

苹果选择公开发布这项工作，而非闭源商业化，这本身就是一个信号。在行业普遍转向闭源API和专有模型的背景下，它对扩散模型的唯一性假设提出了挑战。视频生成领域的未来走向尚不明朗，但苹果已经表明，替代路径确实存在。