Seventy3:借助NotebookLM的能力进行论文解读,专注人工智能、大模型、机器人算法、crypto方向,让大家跟着AI一起进步。
如果你想要解读自己的论文,获得更多曝光度。请联系小助手微信:seventy3_podcast 加群。
合作邮箱:zhiwudazhanjiangshi#gmail.com
今天的主题是:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
Summary
我们提出 DeepSeek-V4 系列的预览版本,包括两款强大的混合专家(Mixture-of-Experts, MoE)语言模型:
两者均支持高达 100 万 token 的上下文长度。
DeepSeek-V4 系列在架构与优化方面包含若干关键升级:
混合注意力架构(hybrid attention architecture)
结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与高度压缩注意力(Heavily Compressed Attention, HCA),以提升长上下文效率;
流形约束超连接(Manifold-Constrained Hyper-Connections, mHC)
用于增强传统残差连接的表达能力与稳定性;
Muon 优化器
提升收敛速度并增强训练稳定性。
在训练方面,我们使用超过 32 万亿(32T)多样且高质量的 token 进行预训练,并在此基础上采用完整的后训练流程,以进一步释放并增强模型能力。
在推理能力方面,DeepSeek-V4-Pro-Max(即 DeepSeek-V4-Pro 的最大推理强度模式)在开源模型中达到新的最先进水平,在核心任务上超越其前代模型。
同时,DeepSeek-V4 系列在长上下文场景中表现出极高效率:
在 100 万 token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3.2:
单 token 推理 FLOPs 仅为 27%
KV cache 仅为 10%
这使得系统能够常态化支持百万 token 上下文,从而使长时程任务与进一步的测试时扩展(test-time scaling)变得更可行。
模型权重已发布在 Hugging Face:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
原文链接:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
前往小宇宙评论区与主播互动