开源 综合自 2 个来源

通义千问27B逆袭397B:Scaling Laws已死?

要点

  • 27B稠密模型对标397B MoE旗舰,存储仅需55.6GB
  • 本地量化版本16.8GB,消费级GPU即可运行
  • 生成速度达每秒25.57个token
  • 稠密架构激活一致性或优于MoE稀疏路由
  • Scaling Laws面临开源模型挑战
参考来源 (2)
  1. [1] 通义千问27B模型对标397B稀疏架构代码能力 — Simon Willison's Weblog
  2. [2] 神秘大象模型100B参数达SOTA — 量子位 QbitAI

55.6GB击败807GB:通义千问用27B参数证明了什么?

阿里云通义团队发布了Qwen3.6-27B,一款参数量仅为270亿的稠密模型,却在编程任务上声称超越了此前的开源旗舰Qwen3.5-397B-A17B——一款需要807GB存储空间的MoE架构模型。两者差距达14倍。

这场逆袭的意义远超数字本身。MoE(混合专家)架构长期被视为大模型最优解:总参数多、激活少、推理成本低。但Qwen3.6-27B用270亿全激活参数做到了397B MoE的输出质量,揭示了MoE引以为傲的"激活效率"可能只是理论值。

实测数据更具说服力。AI开发者Simon Willison在本地消费级GPU上运行16.8GB的Q4_K_M量化版本,生成SVG图片的指令响应速度达到每秒25.57个token,完整输出4444个token耗时不足3分钟。更关键的是,模型输出的SVG代码结构清晰,链条、车轮辐条、鹈鹕腿部细节均正确渲染——这种精细控制力此前是千亿参数模型的专属能力。

这一突破直接挑战了Scaling Laws的核心假设:参数量是能力的唯一标尺。如果稠密架构能在1/14的存储占用下实现同等输出,那么继续堆砌MoE参数的策略将面临根本性质疑。训练算力成本依然重要,但推理效率重新成为焦点——本地可运行、延迟低、无API费用的模型突然变得极具竞争力。

技术层面,通义团队归功于训练方法优化和稠密架构激活模式的稳定性。稠密模型每个token都激活全部参数,这种一致性在长序列复杂推理任务中反而成为优势。不过,更全面的通用能力基准测试尚未公布,编程单点突破能否复制到其他任务仍是问号。

对开发者而言,变革已经发生。Qwen3.6-27B现已登陆Hugging Face,无需服务器集群,一块消费级GPU加17GB磁盘即可部署。开源模型的本地化时代,或许比预期来得更快。

0:00