模型发布综合自 1 个来源

Runway的AGI赌注：视频生成比文本更懂物理世界

要点

• Runway称视频生成解锁了文本无法企及的世界模型
• Gen 3在时序一致性上比前代有明显进步
• 巨头优化文本流利度可能是在追逐错误目标
• Runway的物理推理声称尚无已发布基准验证
• 小规模倒逼视频专用架构优化

参考来源 (1)

[1] Runway押注视频生成通往世界模型，剑指Google — TechCrunch AI ↗

当Google训练语言模型去阅读世界时，有一家AI创业公司却坚信，观看世界更有价值。Runway这家以帮电影制作人原型化视觉特效闻名的视频生成公司，已悄然押注于一个反主流的论断：掌握视频生成是通往世界模型——即真正理解物理现实运作规律的AI系统——的最快路径。这个说法听起来像营销，但它背后的技术逻辑正在迫使资源充足的巨头们重新审视自己的赌注。

Runway所说的世界模型，不是那种能把句子串起来的聊天机器人。它们是能将因果关系内化的系统——重力的重量、玻璃的脆性、织物在张力下的折叠方式。当前的巨型语言模型在这些任务上表现糟糕。让GPT预测球在地毯上还是硬木地板上弹得更高，它经常猜错。语言对物理的描述能力很差，因为它进化是为了传递社会信息，而非物理动力学。视频则不同，它是物体遵循物理定律的直接记录。

Runway的Gen 3系统已在时序一致性上展现出可衡量的进步——即跨帧维持一致物体行为的能力。早期模型产生的画面常常自相矛盾（液体向上流动，影子方向错误），而Gen 3能在更长的序列中保持物理可信度。这不仅仅是美学问题。它表明模型已经学到了一些关于运动规则的规律。该公司现在正推动更长的视频片段，因为短片段无法揭示系统是真正内化了物理规律还是仅仅记住了相关性。

竞争态势紧张。Google DeepMind、Meta和OpenAI都有活跃的世界模型项目，他们拥有Runway缺乏的东西：庞大的算力和海量文本数据。他们假定自己的优势在于规模——更多的参数和更多的token最终会产生物理理解作为副产品。Runway持不同看法，认为科技巨头们正在优化错误的目标函数。文本流利度和世界模型能力不是同一种能力，投资其中一个并不能可靠地转移到另一个。

作为挑战者有其用处。Runway较小的规模迫使架构更加精益。公司无力像OpenAI那样在数万亿token上训练，恰恰相反，它必须设计视频专用的归纳偏置——让模型在空间推理、运动和物体恒存方面天生更优的架构选择。这种约束产生了一个聚焦的研究议程，而更大的实验室可能因分心于语言而将其降级处理。

批评者会指出，Runway尚未发布将其世界模型能力与竞争对手进行比较的技术基准。该公司的说法依赖于演示和定性展示，而非已发表的评估。这种不透明值得质疑。世界建模是一个定义模糊的目标，没有标准化基准，每项进展声称都难以证伪。该领域需要视频中物理推理的度量标准——测试模型是否能正确预测从未观察到的结果。

尽管如此，这一论题值得认真对待。如果视频生成确实被证明是物理推理的正确基底，Runway的早期聚焦给了它一些巨头无法轻易复制的东西：一种视频原生的架构、一种精心策划的训练方法，以及一个针对这个特定问题优化的团队。Google的巨型语言模型在写诗和调试代码方面可能仍然更胜一筹。但理解为什么玻璃掉在瓷砖上会碎裂，并正确生成展示这一过程的视频——这可能需要一种完全不同的模型。Runway正将全部筹码押在这个区别上。