综合综合自 1 个来源

Qwen3.5-Omni狂揽215项SOTA背后：能看代码的AI来了

要点

• Qwen3.5-Omni声称215项SOTA，但现场演示揭示实时视觉理解才是关键
• 模型处理连续摄像头输入——实时阅读论文、观察编程过程
• 将AI交互从拉动模式转变为推动模式（观察者主动插话）
• 与GPT-4o、Gemini在实时多模态推理领域直接竞争
• 阿里巴巴Qwen系列历来比OpenAI、Google提供更激进的API定价

参考来源 (1)

[1] Qwen3.5-Omni拿下215项SOTA，支持现场讲论文撸代码 — 量子位 QbitAI ↗

215项——这是阿里巴巴在其最新模型Qwen3.5-Omni的新闻稿中反复强调的数字。SOTA benchmark的堆砌已经成为AI行业最流行的营销语言：选一批有利指标，宣布胜利，然后让公关稿完成剩下的工作。但真正重要的问题是：这个模型到底能做什么前任做不到的事？

量子位的实测视频给出了答案——实时视觉理解能力。打开摄像头对准论文，模型读取内容、讨论方法论、回答引用问题。再把摄像头对准代码编辑器，它看着你写代码，中途插话给出建议，根据你正在构建的内容生成代码。

这不是静态图像分析。模型在观察的同时进行处理——将连续的视觉输入转化为实时评论和动作。视频演示中，开发者举起打印论文，切换到笔记本电脑屏幕，模型都对两者做出了即时响应。这种持续视觉锚定能力——追踪用户正在做什么并同步思考——在此前的主流模型中极为罕见。

SOTA数量本身值得质疑。AI行业已经形成了对基准测试表演的不健康依赖：挑选指标针对测试条件优化，用有利于传播的方式宣布结果。一个模型可以"赢得"数百项基准测试，却在实际部署中产生胡说八道的输出。量子位基于现场演示而非通稿的实测，给出了更诚实的评价：模型可靠地阅读论文，并在给定摄像头输入时执行他们所说的现场 vibe coding。

对于开发者而言，这项能力改变了人机协作的性质。当前的AI编程工具采用拉动模式：你粘贴代码、描述问题、获得响应。Qwen3.5-Omni引入了推动模式——AI观察你的工作，在有话要说时主动开口。这种从工具到观察者的转变，才是真正的创新。

多模态竞赛并非新鲜事。OpenAI的GPT-4o和Google的Gemini都能处理视频输入。但阿里巴巴的定位表明了更面向开发者的用例——不仅是分析预录制内容，而是在活动会话中提供即时指导。如果现场演示反映了真实性能，这代表了向AI作为结对编程伙伴而非自动补全工具的重要一步。

关键问题是：它的成本和延迟能否让开发者真正使用？阿里巴巴的Qwen系列历来通过API平台提供激进的定价策略。如果Qwen3.5-Omni延续这一模式，实时视觉AI辅助可能从研究 novelty 变成超大规模厂商生态之外团队的生产工具。

215项SOTA声明将在未来的公关稿中被引用数月。更持久的叙事反而更简单：一个看着你工作并能开口说话的模型。如果这能在演示环境之外保持同样表现，其价值远超任何基准测试计数。