研究综合自 1 个来源

字节提出视觉生成第三种路线

要点

• 字节跳动提出视觉生成第三种范式：增量生成与实时编辑结合
• 相同参数量下超越扩散和自回归两种方法
• 论文认为两种范式之间的二元选择限制了领域发展
• 方法模拟人类艺术创作过程——同步创作与修改
• 挑战建立在扩散和自回归方法上的西方共识

参考来源 (1)

[1] 字节提出视觉生成第三路线 — 量子位 QbitAI ↗

字节跳动的新视觉生成方法既不是扩散模型，也不是自回归模型。它是第三种完全不同的路线——根据这家中国科技巨头研究人员发表的论文，这条第三条路径在相同参数量下超越了两种既定范式。这一发现如果经得起推敲，将挑战一个多年来悄然主导视觉AI发展的共识：从业者必须在两种互斥的架构选择之间做出取舍，而其他一切都是这两种主题的变体。

研究团队将这种方法描述为增量生成与实时编辑的结合——这个过程更接近人类艺术家的实际工作方式，同时绘画和修改，而非遵循单一的线性序列。论文认为，扩散/自回归的二元对立限制了研究人员定义视觉生成问题的方式。扩散模型的"逐步去噪"方法或自回归模型的"预测下一个标记序列"方法都不是必然约束。两者都只是众多可能方法中的选项。

字节跳动这一主张的重要性在于其对竞争格局的影响。视觉生成主要由西方研究议程塑造。OpenAI、Google和Stability AI的系统——主导着公众对图像生成的认知——由扩散模型驱动。元开创并由谷歌Gemini系列探索的自回归方法，将视觉理解视为语言建模的延伸。字节的第三种范式如果被证明可扩展，代表了一条独立路径——不依赖任一西方方法中嵌入的架构假设。

该研究还涉及更根本的问题：视觉智能究竟需要什么。通过更直接地模拟人类艺术创作过程，字节的方法重新构想了问题：视觉生成不是模拟扩散或顺序标记预测，而是捕捉视觉理解本身的增量性和迭代性。人脑生成图像既不是通过去噪随机噪声，也不是预测下一个标记——它是一层一层地建立理解，边走边完善。

字节跳动的核心主张意义重大：一个在相当规模下运行的模型超越了两种既定方法。如果经过同行评审和独立测试验证，这代表了视觉AI设计方式的真正转变——不是渐进式改进，而是根本性的架构选择。怀疑是必要的——大型科技公司的研究往往缺乏可重复性，参数数量不等于实际能力。但框架本身很重要：这不是现有范式内的优化，而是定义新范式的尝试。

更广泛的问题是，视觉AI领域是将字节的提议视为严肃挑战，还是将其视为来自在与全球研究对话相对隔离的环境中运营的中国公司的另一种专有方法。答案可能取决于独立研究人员是否可以复制结果。如果可以，字节跳动将完成真正困难的事情：不仅仅是构建更好的模型，而是改变对话的框架。