模型发布 综合自 2 个来源

35B参数本地模型击败闭源旗舰:最强模型定义权易手

要点

  • Opus 4.7在编码、图像分析方面提升,减少手把手指导需求
  • Qwen3.6-35B-A3B在MacBook Pro M5本地运行击败Opus 4.7鹈鹕测试
  • 量化后仅20.9GB,通过LM Studio本地运行,无需API
  • Mythos Preview才是Anthropic真正的旗舰,不是Opus 4.7
  • 开源模型正在缩小与闭源API的能力差距
参考来源 (2)
  1. [1] Anthropic发布最强Claude Opus 4.7模型 — The Verge AI
  2. [2] 开发者本地运行Qwen3.6 图像超越Claude — Simon Willison's Weblog

Anthropic于周四发布Claude Opus 4.7,称之为该公司有史以来最强大的"全面可用"模型。十二小时后,一位开发者在笔记本电脑上运行了一个350亿参数的模型,让它画了一只骑自行车的鹈鹕——结果这只开源模型的表现超越了Opus 4.7。

这个矛盾揭示了AI行业正在经历的某种转变:"最强大模型"的称号正在成为一个移动的靶子,而移动的方向利好开放。

本地运行改变了什么

必须承认,Opus 4.7并非小打小闹的更新。Anthropic声称在高级软件工程、复杂编码任务、图像分析和幻灯片文档生成等创意工作方面有显著提升。公司特别强调减少了"手把手指导"的需求——在挑战性工程问题上,用户需要迭代的次数变少了。对于通过API调用Anthropic服务的企业客户,这些都是实实在在的效率提升。

但Anthropic自身也已承认"最强大"这一框架的局限性。本月早些时候,公司发布了Mythos Preview,一款网络安全专用模型,明确称之为公司迄今最强大的模型。Opus 4.7处于其下——在其层级中强大,但并非顶峰。与此同时,阿里巴巴的开源模型Qwen3.6-35B-A3B在视觉任务上超越了Opus 4.7。开发者Simon Willison用这个模型生成了可识别的自行车车架,而Opus 4.7始终画出结构错误的结果。

鹈鹕测试很荒谬,但也有启发意义。

开放权重正在赢得什么

Willison使用LM Studio在一台MacBook Pro M5上运行Qwen3.6,模型量化后仅20.9GB。没有API费用,没有数据离开他的设备,没有速率限制。这个模型装在口袋里,在视觉任务上胜过云端托管的前沿模型。

这不是孤立的把戏,它代表了一种趋势。开源模型与闭源API之间的能力差距正在以比大多数预测更快的速度缩小。Qwen3.6在图像任务上的表现——长期被视为小型模型的弱点——表明架构改进和训练数据质量正在承担参数规模曾经独自承担的重量。

对于开发者、研究者和成本敏感型团队,这改变了决策逻辑。"我们应该用最强大的模型吗?"正在被"我们应该用我们能本地运行的最强大模型吗?"所取代。答案越来越多地倾向于自托管。

定义权的争夺

Anthropic将Opus 4.7定位为"全面可用"是有意义的。它传递的是可靠性、企业级支持和可预测的定价——这些都是开源模型目前仍在努力提供的。但在笔记本电脑上运行模型的研究者与规模化部署的企业面临不同的约束,闭源模型以灵活性换取确定性保障的交易正在被侵蚀。

随着开源模型在各任务基准上日益比肩,"最强大"的称号日益属于那个在某天登上最佳排行榜的模型。今天是鹈鹕测试上的Qwen3.6,明天可能是别的什么。能本地运行、私密部署、低成本使用的模型正在赢得人心,即使它尚未赢得所有比赛。这正是Anthropic这次发布无意中揭示的悖论:当本地模型的能力不断攀升,旗舰模型的王座也在摇晃。

0:00