DeepSeek-V4 技术报告解析

论文全名： DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
来源： DeepSeek-AI（2026年4月24日，预览版）
总页数： 58 页

一、核心定位

DeepSeek-V4 的核心目标是：打破超长上下文处理的效率瓶颈，实现百万 Token 上下文的高效支持。传统 Attention 的二次复杂度是制约超长上下文推理的根本瓶颈，DeepSeek-V4 通过架构创新将其突破。

二、模型系列

模型	总参数	激活参数	上下文长度	预训练数据
DeepSeek-V4-Pro	1.6T	49B	1M tokens	33T tokens
DeepSeek-V4-Flash	284B	13B	1M tokens	32T tokens

每个模型支持三种推理强度模式：Standard / Think / Think Max（通过 <think> 特殊 token 区分）。

三、架构创新（相比 DeepSeek-V3 的三大升级）

3.1 混合注意力机制：CSA + HCA

这是 V4 最核心的创新，解决了超长上下文下 Attention 的计算瓶颈。

CSA（Compressed Sparse Attention，压缩稀疏注意力）

将每 m 个 token 的 KV 压缩为一个 entry（压缩率 m=4）
再用 DeepSeek Sparse Attention（DSA）对压缩 KV 做 Top-k 稀疏选择（top-k=512/1024）
引入 Lightning Indexer：用低秩方式计算 indexer query，通过 FP4 精度快速打分来找最相关的压缩 KV 块
序列长度有效压缩为原来的 1/m

HCA（Heavily Compressed Attention，重度压缩注意力）

更激进的压缩：每 m'=128 个 token 压缩为一个 entry（远大于 CSA 的 m=4）
不做稀疏选择，保持 dense attention
序列长度压缩为 1/128

混合策略：

前 2 层用纯滑动窗口注意力（SWA）
后续层交替使用 CSA 和 HCA
两种注意力均附带一个小的滑动窗口分支（窗口大小 128），保留局部细粒度依赖
采用 Attention Sink 技巧（可学习 sink logits），允许 attention score 之和不等于 1

效率提升（1M token 场景 vs DeepSeek-V3.2）：

指标	V4-Pro	V4-Flash
单 token 推理 FLOPs	27%	10%
KV Cache 大小	10%	7%

3.2 流形约束超连接（mHC）

背景： 标准 Hyper-Connections（HC）将残差流宽度扩展 n 倍，提供互补的缩放轴，但在多层堆叠时会出现数值不稳定。

mHC 的创新： 将残差映射矩阵 B 约束到双随机矩阵的流形（Birkhoff 多面体 M）：

约束使谱范数 ‖B‖₂ ≤ 1，使残差变换非扩张，前向传播和反向传播都更稳定
使用 Sinkhorn-Knopp 算法（20步迭代）将矩阵投影到该流形
参数采用动态生成（输入依赖分量 + 静态偏置），通过 RMSNorm + Sigmoid 归一化
扩展因子 n_hc = 4

3.3 Muon 优化器

对大多数模块使用 Muon 替代 AdamW（Embedding、RMSNorm 等仍用 AdamW）
使用 混合 Newton-Schulz 迭代 实现近似正交化（10步：前8步快速收敛，后2步精确稳定）
结合 Nesterov 动量，更快收敛、更稳定训练

四、模型配置

DeepSeek-V4-Flash

Transformer 层数：43
隐藏维度：4096
MoE：每层 1 shared + 256 routed experts，每 token 激活 6 个，中间维度 2048
CSA top-k = 512，HCA 压缩率 = 128

DeepSeek-V4-Pro

Transformer 层数：61
隐藏维度：7168
MoE：每层 1 shared + 384 routed experts，每 token 激活 6 个，中间维度 3072
CSA top-k = 1024，HCA 压缩率 = 128

五、基础设施优化

优化点	内容
细粒度 EP 通信计算重叠	将 MoE 专家分波次调度，计算/通信/结果发送并发，理论加速比 1.92×
TileLang	自研 DSL，平衡内核开发效率与运行效率
FP4 量化感知训练	对 MoE expert 权重和 indexer QK 路径采用 FP4，节省内存和计算
批不变确定性内核	保证训练/推理跨精度 bit-wise 可复现
上下文并行	两阶段上下文并行处理压缩注意力
磁盘 KV Cache	异构 KV Cache 结构，支持磁盘存储，实现超长共享前缀复用

六、训练关键技术

训练稳定性技巧

Anticipatory Routing（预见性路由）：将路由计算用 t-Δt 时刻的参数提前计算，解耦骨干网络与路由网络的同步更新，打破 loss spike 的恶性循环
SwiGLU Clamping：将 SwiGLU 的线性分量限制在 [-10, 10]，门控分量上限为 10，抑制异常值

训练流程

序列长度逐步扩展：4K → 16K → 64K → 1M
先用密集注意力预热（1T token），再引入稀疏注意力
MTP（Multi-Token Prediction）损失权重：训练期 0.3，学习率衰减后 0.1

七、后训练：两阶段范式

阶段一：领域专家独立培养（Specialist Training）

针对数学、代码、Agent、指令跟随等领域各训练独立专家模型
流程：SFT（高质量领域数据）→ RL（GRPO 算法 + 领域专用奖励模型）
引入 生成式奖励模型（GRM）：actor 网络直接兼任奖励评估，避免大规模人工标注

阶段二：On-Policy Distillation（OPD，在线策略蒸馏）

用各领域专家作为教师，训练单一统一模型（学生）
优化 reverse KL 散度
替代了 DeepSeek-V3.2 中的混合 RL 阶段

八、评估结果

Base 模型对比（Table 1）

基准	V3.2-Base（37B激活）	V4-Flash-Base（13B激活）	V4-Pro-Base（49B激活）
MMLU	87.8	88.7	90.1
MMLU-Pro	65.5	68.3	73.5
SimpleQA verified	28.3	30.1	55.2
FACTS Parametric	27.1	33.9	62.6
LongBench-V2	40.2	44.7	51.5
HumanEval	62.8	69.5	76.8

关键结论：V4-Flash 仅用 V3.2 约 35% 的激活参数，却在大多数基准上超越 V3.2，展示了架构效率的巨大进步。

Chat 模型对比（DeepSeek-V4-Pro-Max vs 同类）

维度	结论
知识（SimpleQA/Chinese-SimpleQA）	大幅超越开源模型，接近 Gemini-3.1-Pro
推理	优于 GPT-5.2 / Gemini-3.0-Pro，略落后于 GPT-5.4 / Gemini-3.1-Pro（约 3-6 个月差距）
代码 Agent（内部 R&D 基准）	超越 Claude Sonnet 4.5，接近 Claude Opus 4.5（Pass Rate 67% vs 73%）
长上下文（1M token）	超越 Gemini-3.1-Pro
Agent（公开基准）	与 Kimi-K2.6 / GLM-5.1 持平，略逊于 frontier 闭源模型

九、局限性与未来方向

知识评估仍落后于 Gemini-3.1-Pro
推理性能落后顶级前沿模型约 3-6 个月
规划中：更稀疏的 Embedding 模块、低延迟长上下文架构、多模态能力、持续数据策略优化

总结

DeepSeek-V4 的核心贡献在于通过 CSA+HCA 混合注意力架构，以极低的计算代价（仅需 V3.2 的 10%–27% FLOPs 和 7%–10% KV Cache）实现了真正可实用的百万 token 上下文处理，同时配合 mHC 残差改进、Muon 优化器、两阶段后训练范式，在性能上达到或超越了大多数开源前沿模型。

DeepSeek-V4 技术报告解析#

一、核心定位#

二、模型系列#

三、架构创新（相比 DeepSeek-V3 的三大升级）#

3.1 混合注意力机制：CSA + HCA#

3.2 流形约束超连接（mHC）#

3.3 Muon 优化器#

四、模型配置#

DeepSeek-V4-Flash#

DeepSeek-V4-Pro#

五、基础设施优化#

六、训练关键技术#

训练稳定性技巧#

训练流程#

七、后训练：两阶段范式#

阶段一：领域专家独立培养（Specialist Training）#

阶段二：On-Policy Distillation（OPD，在线策略蒸馏）#

八、评估结果#

Base 模型对比（Table 1）#

Chat 模型对比（DeepSeek-V4-Pro-Max vs 同类）#

九、局限性与未来方向#

总结#