开源综合自 2 个来源

通义千问27B逆袭397B：Scaling Laws已死？

要点

• 27B稠密模型对标397B MoE旗舰，存储仅需55.6GB
• 本地量化版本16.8GB，消费级GPU即可运行
• 生成速度达每秒25.57个token
• 稠密架构激活一致性或优于MoE稀疏路由
• Scaling Laws面临开源模型挑战

参考来源 (2)

[1] 通义千问27B模型对标397B稀疏架构代码能力 — Simon Willison's Weblog ↗
[2] 神秘大象模型100B参数达SOTA — 量子位 QbitAI ↗

55.6GB击败807GB：通义千问用27B参数证明了什么？

阿里云通义团队发布了Qwen3.6-27B，一款参数量仅为270亿的稠密模型，却在编程任务上声称超越了此前的开源旗舰Qwen3.5-397B-A17B——一款需要807GB存储空间的MoE架构模型。两者差距达14倍。

这场逆袭的意义远超数字本身。MoE（混合专家）架构长期被视为大模型最优解：总参数多、激活少、推理成本低。但Qwen3.6-27B用270亿全激活参数做到了397B MoE的输出质量，揭示了MoE引以为傲的"激活效率"可能只是理论值。

实测数据更具说服力。AI开发者Simon Willison在本地消费级GPU上运行16.8GB的Q4_K_M量化版本，生成SVG图片的指令响应速度达到每秒25.57个token，完整输出4444个token耗时不足3分钟。更关键的是，模型输出的SVG代码结构清晰，链条、车轮辐条、鹈鹕腿部细节均正确渲染——这种精细控制力此前是千亿参数模型的专属能力。

这一突破直接挑战了Scaling Laws的核心假设：参数量是能力的唯一标尺。如果稠密架构能在1/14的存储占用下实现同等输出，那么继续堆砌MoE参数的策略将面临根本性质疑。训练算力成本依然重要，但推理效率重新成为焦点——本地可运行、延迟低、无API费用的模型突然变得极具竞争力。

技术层面，通义团队归功于训练方法优化和稠密架构激活模式的稳定性。稠密模型每个token都激活全部参数，这种一致性在长序列复杂推理任务中反而成为优势。不过，更全面的通用能力基准测试尚未公布，编程单点突破能否复制到其他任务仍是问号。

对开发者而言，变革已经发生。Qwen3.6-27B现已登陆Hugging Face，无需服务器集群，一块消费级GPU加17GB磁盘即可部署。开源模型的本地化时代，或许比预期来得更快。