DeepSeek-V4 技术报告解析

论文全名: DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
来源: DeepSeek-AI(2026年4月24日,预览版)
总页数: 58 页


一、核心定位

DeepSeek-V4 的核心目标是:打破超长上下文处理的效率瓶颈,实现百万 Token 上下文的高效支持。传统 Attention 的二次复杂度是制约超长上下文推理的根本瓶颈,DeepSeek-V4 通过架构创新将其突破。


二、模型系列

模型总参数激活参数上下文长度预训练数据
DeepSeek-V4-Pro1.6T49B1M tokens33T tokens
DeepSeek-V4-Flash284B13B1M tokens32T tokens

每个模型支持三种推理强度模式:Standard / Think / Think Max(通过 <think> 特殊 token 区分)。


三、架构创新(相比 DeepSeek-V3 的三大升级)

3.1 混合注意力机制:CSA + HCA

这是 V4 最核心的创新,解决了超长上下文下 Attention 的计算瓶颈。

CSA(Compressed Sparse Attention,压缩稀疏注意力)

  • 将每 m 个 token 的 KV 压缩为一个 entry(压缩率 m=4)
  • 再用 DeepSeek Sparse Attention(DSA)对压缩 KV 做 Top-k 稀疏选择(top-k=512/1024)
  • 引入 Lightning Indexer:用低秩方式计算 indexer query,通过 FP4 精度快速打分来找最相关的压缩 KV 块
  • 序列长度有效压缩为原来的 1/m

HCA(Heavily Compressed Attention,重度压缩注意力)

  • 更激进的压缩:每 m'=128 个 token 压缩为一个 entry(远大于 CSA 的 m=4)
  • 不做稀疏选择,保持 dense attention
  • 序列长度压缩为 1/128

混合策略:

  • 前 2 层用纯滑动窗口注意力(SWA)
  • 后续层交替使用 CSA 和 HCA
  • 两种注意力均附带一个小的滑动窗口分支(窗口大小 128),保留局部细粒度依赖
  • 采用 Attention Sink 技巧(可学习 sink logits),允许 attention score 之和不等于 1

效率提升(1M token 场景 vs DeepSeek-V3.2):

指标V4-ProV4-Flash
单 token 推理 FLOPs27%10%
KV Cache 大小10%7%

3.2 流形约束超连接(mHC)

背景: 标准 Hyper-Connections(HC)将残差流宽度扩展 n 倍,提供互补的缩放轴,但在多层堆叠时会出现数值不稳定。

mHC 的创新: 将残差映射矩阵 B 约束到双随机矩阵的流形(Birkhoff 多面体 M):

  • 约束使谱范数 ‖B‖₂ ≤ 1,使残差变换非扩张,前向传播和反向传播都更稳定
  • 使用 Sinkhorn-Knopp 算法(20步迭代)将矩阵投影到该流形
  • 参数采用动态生成(输入依赖分量 + 静态偏置),通过 RMSNorm + Sigmoid 归一化
  • 扩展因子 n_hc = 4

3.3 Muon 优化器

  • 对大多数模块使用 Muon 替代 AdamW(Embedding、RMSNorm 等仍用 AdamW)
  • 使用 混合 Newton-Schulz 迭代 实现近似正交化(10步:前8步快速收敛,后2步精确稳定)
  • 结合 Nesterov 动量,更快收敛、更稳定训练

四、模型配置

DeepSeek-V4-Flash

  • Transformer 层数:43
  • 隐藏维度:4096
  • MoE:每层 1 shared + 256 routed experts,每 token 激活 6 个,中间维度 2048
  • CSA top-k = 512,HCA 压缩率 = 128

DeepSeek-V4-Pro

  • Transformer 层数:61
  • 隐藏维度:7168
  • MoE:每层 1 shared + 384 routed experts,每 token 激活 6 个,中间维度 3072
  • CSA top-k = 1024,HCA 压缩率 = 128

五、基础设施优化

优化点内容
细粒度 EP 通信计算重叠将 MoE 专家分波次调度,计算/通信/结果发送并发,理论加速比 1.92×
TileLang自研 DSL,平衡内核开发效率与运行效率
FP4 量化感知训练对 MoE expert 权重和 indexer QK 路径采用 FP4,节省内存和计算
批不变确定性内核保证训练/推理跨精度 bit-wise 可复现
上下文并行两阶段上下文并行处理压缩注意力
磁盘 KV Cache异构 KV Cache 结构,支持磁盘存储,实现超长共享前缀复用

六、训练关键技术

训练稳定性技巧

  1. Anticipatory Routing(预见性路由):将路由计算用 t-Δt 时刻的参数提前计算,解耦骨干网络与路由网络的同步更新,打破 loss spike 的恶性循环
  2. SwiGLU Clamping:将 SwiGLU 的线性分量限制在 [-10, 10],门控分量上限为 10,抑制异常值

训练流程

  • 序列长度逐步扩展:4K → 16K → 64K → 1M
  • 先用密集注意力预热(1T token),再引入稀疏注意力
  • MTP(Multi-Token Prediction)损失权重:训练期 0.3,学习率衰减后 0.1

七、后训练:两阶段范式

阶段一:领域专家独立培养(Specialist Training)

  • 针对数学、代码、Agent、指令跟随等领域各训练独立专家模型
  • 流程:SFT(高质量领域数据)→ RL(GRPO 算法 + 领域专用奖励模型)
  • 引入 生成式奖励模型(GRM):actor 网络直接兼任奖励评估,避免大规模人工标注

阶段二:On-Policy Distillation(OPD,在线策略蒸馏)

  • 用各领域专家作为教师,训练单一统一模型(学生)
  • 优化 reverse KL 散度
  • 替代了 DeepSeek-V3.2 中的混合 RL 阶段

八、评估结果

Base 模型对比(Table 1)

基准V3.2-Base(37B激活)V4-Flash-Base(13B激活)V4-Pro-Base(49B激活)
MMLU87.888.790.1
MMLU-Pro65.568.373.5
SimpleQA verified28.330.155.2
FACTS Parametric27.133.962.6
LongBench-V240.244.751.5
HumanEval62.869.576.8

关键结论:V4-Flash 仅用 V3.2 约 35% 的激活参数,却在大多数基准上超越 V3.2,展示了架构效率的巨大进步。

Chat 模型对比(DeepSeek-V4-Pro-Max vs 同类)

维度结论
知识(SimpleQA/Chinese-SimpleQA)大幅超越开源模型,接近 Gemini-3.1-Pro
推理优于 GPT-5.2 / Gemini-3.0-Pro,略落后于 GPT-5.4 / Gemini-3.1-Pro(约 3-6 个月差距)
代码 Agent(内部 R&D 基准)超越 Claude Sonnet 4.5,接近 Claude Opus 4.5(Pass Rate 67% vs 73%)
长上下文(1M token)超越 Gemini-3.1-Pro
Agent(公开基准)与 Kimi-K2.6 / GLM-5.1 持平,略逊于 frontier 闭源模型

九、局限性与未来方向

  • 知识评估仍落后于 Gemini-3.1-Pro
  • 推理性能落后顶级前沿模型约 3-6 个月
  • 规划中:更稀疏的 Embedding 模块、低延迟长上下文架构、多模态能力、持续数据策略优化

总结

DeepSeek-V4 的核心贡献在于通过 CSA+HCA 混合注意力架构,以极低的计算代价(仅需 V3.2 的 10%–27% FLOPs 和 7%–10% KV Cache)实现了真正可实用的百万 token 上下文处理,同时配合 mHC 残差改进、Muon 优化器、两阶段后训练范式,在性能上达到或超越了大多数开源前沿模型。