模型发布综合自 2 个来源

DeepSeek V4 Pro发布：1.6T稀疏架构484天磨剑

要点

• V4 Pro：1.6万亿参数稀疏MoE，256选48专家
• CSA/HCA使百万token FLOPs降至27%、KV缓存降至10%
• 华为昇腾适配，瞄准国产硬件生态
• Base和Instruct双版本同步发布
• 独立评测：开源权重第二梯队
• 58页技术报告披露484天完整迭代过程

参考来源 (2)

[1] DeepSeek V4发布：1.6T MoE架构百万上下文 — Latent Space ↗
[2] DeepSeek V4报告公开484天迭代历程 — 量子位 QbitAI ↗

484天的专注工程，究竟能打磨出什么？DeepSeek用V4 Pro和V4 Flash给出了答案——这是一次双模型同步发布，首次将开源大模型的迭代周期重新定义，同时在性能上比肩Gemini 3.1和GPT-5.4级别。

这份58页的技术报告几乎毫无保留地公开了所有设计决策。V4 Pro采用1.6万亿参数稀疏混合专家架构，每次推理激活48个专家模块（共256个）。而更轻量的Flash版本则蒸馏至2840亿参数、8个专家的规模。两款模型均支持100万token超长上下文，依赖DeepSeek自研的压缩稀疏注意力（CSA）和重型压缩注意力（HCA）机制。

效率数据令人印象深刻。在最大上下文长度下，CSA/HCA技术将计算量降至DeepSeek-V3.2的27%，显存占用降至10%——这对长上下文推理来说意义非凡。技术报告透露，这一突破源于流形约束超连接（mHC）架构，该方法在2026年1月的论文中首次提出，如今已在生产规模上得到验证。

性能评测呈现多面图景。独立基准测试显示，V4 Pro位于开源权重模型第二梯队，与Kimi K2.6、GLM-5.1竞争，在长程推理和智能体编码任务上表现尤为突出。与GPT-5.x、Opus 4.7等闭源前沿模型相比仍有差距，但在智能体场景中，得益于百万token上下文优势，差距明显收窄。

最具战略意义的细节藏在硬件适配层面。V4 Pro原生支持华为昇腾芯片——这是首个明确瞄准中国CANN生态而非NVIDIA CUDA栈的主流开源模型。考虑到昇腾供应量约为H100的四分之一，要在有限算力条件下运行前沿模型，必须从根本上优化内存带宽和算子融合，这绝非简单的移植工作。

V4还打破了一个惯例：V3仅发布Base版本，由社区自行微调Instruct模型；而V4首次同步推出Base和Instruct双版本，MIT许可证覆盖两者，大幅缩短企业部署周期。

484天沉淀出了什么？答案或许就是这份技术报告本身。多位研究者已将其评为年度最佳模型论文之一——不仅因为结论，更因为方法论的完整披露。在多数前沿实验室将架构细节视为竞争壁垒的时代，DeepSeek的透明策略揭示了一种不同的价值逻辑：真正有价值的，是敢于公开方法论的工程纪律，而非仅仅开源权重。