综合 综合自 1 个来源

Qwen3.5-Omni狂揽215项SOTA背后:能看代码的AI来了

要点

  • Qwen3.5-Omni声称215项SOTA,但现场演示揭示实时视觉理解才是关键
  • 模型处理连续摄像头输入——实时阅读论文、观察编程过程
  • 将AI交互从拉动模式转变为推动模式(观察者主动插话)
  • 与GPT-4o、Gemini在实时多模态推理领域直接竞争
  • 阿里巴巴Qwen系列历来比OpenAI、Google提供更激进的API定价
参考来源 (1)
  1. [1] Qwen3.5-Omni拿下215项SOTA,支持现场讲论文撸代码 — 量子位 QbitAI

215项——这是阿里巴巴在其最新模型Qwen3.5-Omni的新闻稿中反复强调的数字。SOTA benchmark的堆砌已经成为AI行业最流行的营销语言:选一批有利指标,宣布胜利,然后让公关稿完成剩下的工作。但真正重要的问题是:这个模型到底能做什么前任做不到的事?

量子位的实测视频给出了答案——实时视觉理解能力。打开摄像头对准论文,模型读取内容、讨论方法论、回答引用问题。再把摄像头对准代码编辑器,它看着你写代码,中途插话给出建议,根据你正在构建的内容生成代码。

这不是静态图像分析。模型在观察的同时进行处理——将连续的视觉输入转化为实时评论和动作。视频演示中,开发者举起打印论文,切换到笔记本电脑屏幕,模型都对两者做出了即时响应。这种持续视觉锚定能力——追踪用户正在做什么并同步思考——在此前的主流模型中极为罕见。

SOTA数量本身值得质疑。AI行业已经形成了对基准测试表演的不健康依赖:挑选指标针对测试条件优化,用有利于传播的方式宣布结果。一个模型可以"赢得"数百项基准测试,却在实际部署中产生胡说八道的输出。量子位基于现场演示而非通稿的实测,给出了更诚实的评价:模型可靠地阅读论文,并在给定摄像头输入时执行他们所说的现场 vibe coding

对于开发者而言,这项能力改变了人机协作的性质。当前的AI编程工具采用拉动模式:你粘贴代码、描述问题、获得响应。Qwen3.5-Omni引入了推动模式——AI观察你的工作,在有话要说时主动开口。这种从工具到观察者的转变,才是真正的创新。

多模态竞赛并非新鲜事。OpenAI的GPT-4o和Google的Gemini都能处理视频输入。但阿里巴巴的定位表明了更面向开发者的用例——不仅是分析预录制内容,而是在活动会话中提供即时指导。如果现场演示反映了真实性能,这代表了向AI作为结对编程伙伴而非自动补全工具的重要一步。

关键问题是:它的成本和延迟能否让开发者真正使用?阿里巴巴的Qwen系列历来通过API平台提供激进的定价策略。如果Qwen3.5-Omni延续这一模式,实时视觉AI辅助可能从研究 novelty 变成超大规模厂商生态之外团队的生产工具。

215项SOTA声明将在未来的公关稿中被引用数月。更持久的叙事反而更简单:一个看着你工作并能开口说话的模型。如果这能在演示环境之外保持同样表现,其价值远超任何基准测试计数。

0:00