视频生成赛道上,Sora、Veo、Runway、Kling正在激烈竞争——它们全都使用扩散模型。苹果是唯一选择不同技术路线的玩家。本周四,苹果机器学习研究团队发布了STARFlow-V,这是一个基于归一化流的视频生成系统,而非当前主流的扩散模型。这是一次对行业共识的刻意偏离,也提醒着业界:扩散模型不是唯一的选择。
归一化流是一种基于似然的生成模型,通过可逆变换学习数据分布。与扩散模型不同——后者通过添加噪声并学习逆转过程来生成内容——归一化流在输入与输出之间保持精确对应。每一个生成的像素都可以通过确定性路径追溯回去。STARFlow-V将这一原理应用于视频,在扩展时空推理的同时,保留了归一化流的核心优势:原生似然估计、端到端学习,以及理论上严谨的评估指标。
从工程角度看,这可能带来生成速度的量级提升。扩散模型需要数百步迭代去噪才能生成一段视频,每一步都是完整的神经网络前向传播。归一化流则通过学习到的变换实现单次前向传递即可完成生成。STARFlow-V还具备因果预测能力,可以基于过去帧预测未来帧,这对于保持长视频的连贯性至关重要。
苹果的赌注存在真实风险。归一化流在处理视频所需的高维、长程依赖关系时历来表现不佳,维持可逆性的架构设计难度很大。更重要的是,论文中没有与其他模型的质量对比数据——在视频生成质量仍是最核心指标的当下,这一点不容忽视。
但时机选择有其合理性。随着视频生成从尝鲜走向基础设施,扩散模型的局限已不只是理论问题。推理成本随规模累积,无法精确计算输出概率值——扩散模型只能近似而非精确计算——这对安全过滤和质量控制构成挑战。归一化流则直接解决了这两个痛点。STARFlow-V能输出精确的对数似然值,为视频筛选决策提供原则性依据。
苹果选择公开发布这项工作,而非闭源商业化,这本身就是一个信号。在行业普遍转向闭源API和专有模型的背景下,它对扩散模型的唯一性假设提出了挑战。视频生成领域的未来走向尚不明朗,但苹果已经表明,替代路径确实存在。