研究 综合自 2 个来源

苹果押注归一化流:视频生成范式暗战

要点

  • STARFlow-V基于归一化流而非扩散模型构建
  • 单次前向传递生成,无需数百步迭代去噪
  • 输出精确对数似然,支持原则性质量筛选
  • 苹果选择公开发布,逆行业闭源趋势而行
  • 缺乏与Sora、Runway等扩散模型的质量对比数据
  • 端到端学习,无需辅助目标函数
参考来源 (2)
  1. [1] 苹果STARFlow-V:用归一化流做视频生成 — Apple Machine Learning Research
  2. [2] 苹果用伪标注管道扩大手语数据规模 — Apple Machine Learning Research

视频生成赛道上,Sora、Veo、Runway、Kling正在激烈竞争——它们全都使用扩散模型。苹果是唯一选择不同技术路线的玩家。本周四,苹果机器学习研究团队发布了STARFlow-V,这是一个基于归一化流的视频生成系统,而非当前主流的扩散模型。这是一次对行业共识的刻意偏离,也提醒着业界:扩散模型不是唯一的选择。

归一化流是一种基于似然的生成模型,通过可逆变换学习数据分布。与扩散模型不同——后者通过添加噪声并学习逆转过程来生成内容——归一化流在输入与输出之间保持精确对应。每一个生成的像素都可以通过确定性路径追溯回去。STARFlow-V将这一原理应用于视频,在扩展时空推理的同时,保留了归一化流的核心优势:原生似然估计、端到端学习,以及理论上严谨的评估指标。

从工程角度看,这可能带来生成速度的量级提升。扩散模型需要数百步迭代去噪才能生成一段视频,每一步都是完整的神经网络前向传播。归一化流则通过学习到的变换实现单次前向传递即可完成生成。STARFlow-V还具备因果预测能力,可以基于过去帧预测未来帧,这对于保持长视频的连贯性至关重要。

苹果的赌注存在真实风险。归一化流在处理视频所需的高维、长程依赖关系时历来表现不佳,维持可逆性的架构设计难度很大。更重要的是,论文中没有与其他模型的质量对比数据——在视频生成质量仍是最核心指标的当下,这一点不容忽视。

但时机选择有其合理性。随着视频生成从尝鲜走向基础设施,扩散模型的局限已不只是理论问题。推理成本随规模累积,无法精确计算输出概率值——扩散模型只能近似而非精确计算——这对安全过滤和质量控制构成挑战。归一化流则直接解决了这两个痛点。STARFlow-V能输出精确的对数似然值,为视频筛选决策提供原则性依据。

苹果选择公开发布这项工作,而非闭源商业化,这本身就是一个信号。在行业普遍转向闭源API和专有模型的背景下,它对扩散模型的唯一性假设提出了挑战。视频生成领域的未来走向尚不明朗,但苹果已经表明,替代路径确实存在。

0:00