DeepSeek-V4 技术报告解析
论文全名: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
来源: DeepSeek-AI(2026年4月24日,预览版)
总页数: 58 页
一、核心定位
DeepSeek-V4 的核心目标是:打破超长上下文处理的效率瓶颈,实现百万 Token 上下文的高效支持。传统 Attention 的二次复杂度是制约超长上下文推理的根本瓶颈,DeepSeek-V4 通过架构创新将其突破。
二、模型系列
| 模型 | 总参数 | 激活参数 | 上下文长度 | 预训练数据 |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.6T | 49B | 1M tokens | 33T tokens |
| DeepSeek-V4-Flash | 284B | 13B | 1M tokens | 32T tokens |
每个模型支持三种推理强度模式:Standard / Think / Think Max(通过 <think> 特殊 token 区分)。
三、架构创新(相比 DeepSeek-V3 的三大升级)
3.1 混合注意力机制:CSA + HCA
这是 V4 最核心的创新,解决了超长上下文下 Attention 的计算瓶颈。
CSA(Compressed Sparse Attention,压缩稀疏注意力)
- 将每
m个 token 的 KV 压缩为一个 entry(压缩率 m=4) - 再用 DeepSeek Sparse Attention(DSA)对压缩 KV 做 Top-k 稀疏选择(top-k=512/1024)
- 引入 Lightning Indexer:用低秩方式计算 indexer query,通过 FP4 精度快速打分来找最相关的压缩 KV 块
- 序列长度有效压缩为原来的 1/m
HCA(Heavily Compressed Attention,重度压缩注意力)
- 更激进的压缩:每
m'=128个 token 压缩为一个 entry(远大于 CSA 的 m=4) - 不做稀疏选择,保持 dense attention
- 序列长度压缩为 1/128
混合策略:
- 前 2 层用纯滑动窗口注意力(SWA)
- 后续层交替使用 CSA 和 HCA
- 两种注意力均附带一个小的滑动窗口分支(窗口大小 128),保留局部细粒度依赖
- 采用 Attention Sink 技巧(可学习 sink logits),允许 attention score 之和不等于 1
效率提升(1M token 场景 vs DeepSeek-V3.2):
| 指标 | V4-Pro | V4-Flash |
|---|---|---|
| 单 token 推理 FLOPs | 27% | 10% |
| KV Cache 大小 | 10% | 7% |
3.2 流形约束超连接(mHC)
背景: 标准 Hyper-Connections(HC)将残差流宽度扩展 n 倍,提供互补的缩放轴,但在多层堆叠时会出现数值不稳定。
mHC 的创新: 将残差映射矩阵 B 约束到双随机矩阵的流形(Birkhoff 多面体 M):
- 约束使谱范数 ‖B‖₂ ≤ 1,使残差变换非扩张,前向传播和反向传播都更稳定
- 使用 Sinkhorn-Knopp 算法(20步迭代)将矩阵投影到该流形
- 参数采用动态生成(输入依赖分量 + 静态偏置),通过 RMSNorm + Sigmoid 归一化
- 扩展因子 n_hc = 4
3.3 Muon 优化器
- 对大多数模块使用 Muon 替代 AdamW(Embedding、RMSNorm 等仍用 AdamW)
- 使用 混合 Newton-Schulz 迭代 实现近似正交化(10步:前8步快速收敛,后2步精确稳定)
- 结合 Nesterov 动量,更快收敛、更稳定训练
四、模型配置
DeepSeek-V4-Flash
- Transformer 层数:43
- 隐藏维度:4096
- MoE:每层 1 shared + 256 routed experts,每 token 激活 6 个,中间维度 2048
- CSA top-k = 512,HCA 压缩率 = 128
DeepSeek-V4-Pro
- Transformer 层数:61
- 隐藏维度:7168
- MoE:每层 1 shared + 384 routed experts,每 token 激活 6 个,中间维度 3072
- CSA top-k = 1024,HCA 压缩率 = 128
五、基础设施优化
| 优化点 | 内容 |
|---|---|
| 细粒度 EP 通信计算重叠 | 将 MoE 专家分波次调度,计算/通信/结果发送并发,理论加速比 1.92× |
| TileLang | 自研 DSL,平衡内核开发效率与运行效率 |
| FP4 量化感知训练 | 对 MoE expert 权重和 indexer QK 路径采用 FP4,节省内存和计算 |
| 批不变确定性内核 | 保证训练/推理跨精度 bit-wise 可复现 |
| 上下文并行 | 两阶段上下文并行处理压缩注意力 |
| 磁盘 KV Cache | 异构 KV Cache 结构,支持磁盘存储,实现超长共享前缀复用 |
六、训练关键技术
训练稳定性技巧
- Anticipatory Routing(预见性路由):将路由计算用 t-Δt 时刻的参数提前计算,解耦骨干网络与路由网络的同步更新,打破 loss spike 的恶性循环
- SwiGLU Clamping:将 SwiGLU 的线性分量限制在 [-10, 10],门控分量上限为 10,抑制异常值
训练流程
- 序列长度逐步扩展:4K → 16K → 64K → 1M
- 先用密集注意力预热(1T token),再引入稀疏注意力
- MTP(Multi-Token Prediction)损失权重:训练期 0.3,学习率衰减后 0.1
七、后训练:两阶段范式
阶段一:领域专家独立培养(Specialist Training)
- 针对数学、代码、Agent、指令跟随等领域各训练独立专家模型
- 流程:SFT(高质量领域数据)→ RL(GRPO 算法 + 领域专用奖励模型)
- 引入 生成式奖励模型(GRM):actor 网络直接兼任奖励评估,避免大规模人工标注
阶段二:On-Policy Distillation(OPD,在线策略蒸馏)
- 用各领域专家作为教师,训练单一统一模型(学生)
- 优化 reverse KL 散度
- 替代了 DeepSeek-V3.2 中的混合 RL 阶段
八、评估结果
Base 模型对比(Table 1)
| 基准 | V3.2-Base(37B激活) | V4-Flash-Base(13B激活) | V4-Pro-Base(49B激活) |
|---|---|---|---|
| MMLU | 87.8 | 88.7 | 90.1 |
| MMLU-Pro | 65.5 | 68.3 | 73.5 |
| SimpleQA verified | 28.3 | 30.1 | 55.2 |
| FACTS Parametric | 27.1 | 33.9 | 62.6 |
| LongBench-V2 | 40.2 | 44.7 | 51.5 |
| HumanEval | 62.8 | 69.5 | 76.8 |
关键结论:V4-Flash 仅用 V3.2 约 35% 的激活参数,却在大多数基准上超越 V3.2,展示了架构效率的巨大进步。
Chat 模型对比(DeepSeek-V4-Pro-Max vs 同类)
| 维度 | 结论 |
|---|---|
| 知识(SimpleQA/Chinese-SimpleQA) | 大幅超越开源模型,接近 Gemini-3.1-Pro |
| 推理 | 优于 GPT-5.2 / Gemini-3.0-Pro,略落后于 GPT-5.4 / Gemini-3.1-Pro(约 3-6 个月差距) |
| 代码 Agent(内部 R&D 基准) | 超越 Claude Sonnet 4.5,接近 Claude Opus 4.5(Pass Rate 67% vs 73%) |
| 长上下文(1M token) | 超越 Gemini-3.1-Pro |
| Agent(公开基准) | 与 Kimi-K2.6 / GLM-5.1 持平,略逊于 frontier 闭源模型 |
九、局限性与未来方向
- 知识评估仍落后于 Gemini-3.1-Pro
- 推理性能落后顶级前沿模型约 3-6 个月
- 规划中:更稀疏的 Embedding 模块、低延迟长上下文架构、多模态能力、持续数据策略优化
总结
DeepSeek-V4 的核心贡献在于通过 CSA+HCA 混合注意力架构,以极低的计算代价(仅需 V3.2 的 10%–27% FLOPs 和 7%–10% KV Cache)实现了真正可实用的百万 token 上下文处理,同时配合 mHC 残差改进、Muon 优化器、两阶段后训练范式,在性能上达到或超越了大多数开源前沿模型。