模型发布 综合自 2 个来源

DeepSeek V4 Pro发布:1.6T稀疏架构484天磨剑

要点

  • V4 Pro:1.6万亿参数稀疏MoE,256选48专家
  • CSA/HCA使百万token FLOPs降至27%、KV缓存降至10%
  • 华为昇腾适配,瞄准国产硬件生态
  • Base和Instruct双版本同步发布
  • 独立评测:开源权重第二梯队
  • 58页技术报告披露484天完整迭代过程
参考来源 (2)
  1. [1] DeepSeek V4发布:1.6T MoE架构百万上下文 — Latent Space
  2. [2] DeepSeek V4报告公开484天迭代历程 — 量子位 QbitAI

484天的专注工程,究竟能打磨出什么?DeepSeek用V4 Pro和V4 Flash给出了答案——这是一次双模型同步发布,首次将开源大模型的迭代周期重新定义,同时在性能上比肩Gemini 3.1和GPT-5.4级别。

这份58页的技术报告几乎毫无保留地公开了所有设计决策。V4 Pro采用1.6万亿参数稀疏混合专家架构,每次推理激活48个专家模块(共256个)。而更轻量的Flash版本则蒸馏至2840亿参数、8个专家的规模。两款模型均支持100万token超长上下文,依赖DeepSeek自研的压缩稀疏注意力(CSA)和重型压缩注意力(HCA)机制。

效率数据令人印象深刻。在最大上下文长度下,CSA/HCA技术将计算量降至DeepSeek-V3.2的27%,显存占用降至10%——这对长上下文推理来说意义非凡。技术报告透露,这一突破源于流形约束超连接(mHC)架构,该方法在2026年1月的论文中首次提出,如今已在生产规模上得到验证。

性能评测呈现多面图景。独立基准测试显示,V4 Pro位于开源权重模型第二梯队,与Kimi K2.6、GLM-5.1竞争,在长程推理和智能体编码任务上表现尤为突出。与GPT-5.x、Opus 4.7等闭源前沿模型相比仍有差距,但在智能体场景中,得益于百万token上下文优势,差距明显收窄。

最具战略意义的细节藏在硬件适配层面。V4 Pro原生支持华为昇腾芯片——这是首个明确瞄准中国CANN生态而非NVIDIA CUDA栈的主流开源模型。考虑到昇腾供应量约为H100的四分之一,要在有限算力条件下运行前沿模型,必须从根本上优化内存带宽和算子融合,这绝非简单的移植工作。

V4还打破了一个惯例:V3仅发布Base版本,由社区自行微调Instruct模型;而V4首次同步推出Base和Instruct双版本,MIT许可证覆盖两者,大幅缩短企业部署周期。

484天沉淀出了什么?答案或许就是这份技术报告本身。多位研究者已将其评为年度最佳模型论文之一——不仅因为结论,更因为方法论的完整披露。在多数前沿实验室将架构细节视为竞争壁垒的时代,DeepSeek的透明策略揭示了一种不同的价值逻辑:真正有价值的,是敢于公开方法论的工程纪律,而非仅仅开源权重。

0:00