DeepSeek V3.1 Terminus 全面解析
DeepSeek V3.1 Terminus 全面解析
DeepSeek V3.1 于 2025 年 8 月 19 日首次发布,作为 DeepSeek V3 的一次迭代升级。后续推出的 Terminus 版本在保持相同 Mixture-of-Experts 主干的前提下,进一步强化多语言一致性与智能体可靠性。本文聚焦三个关键检查点:DeepSeek-V3.1-Base、DeepSeek-V3.1 与 DeepSeek-V3.1-Terminus。
版本全景
| 版本 | 定位 | 主要能力 |
|---|---|---|
| DeepSeek-V3.1-Base | 面向二次预训练或领域自适应的基础权重 | 6710 亿参数,总计每个 Token 激活约 370 亿参数,支持 128K 上下文,MIT 许可证开放,可直接用于下游调优。 |
| DeepSeek-V3.1 | 具备思考与非思考双模板的指令对齐模型 | 在 Base 基础上引入聊天模板、优化工具调用,在保持架构不变的前提下提升推理效率。 |
| DeepSeek-V3.1-Terminus | 建立在 V3.1 之上的可靠性增强版 | 针对语言混用和智能体行为进行修复,提升代码与搜索代理表现,同时保留原有结构。 |
架构与训练栈
三种检查点均采用 DeepSeek MoE 设计,总计 6710 亿专家参数、每个 Token 激活约 370 亿参数,并支持 128K Token 上下文。V3.1 在 Base 基础上延长了长上下文训练流程:32K 阶段扩展至 6300 亿 Token,128K 阶段扩展至 2090 亿 Token,同时使用 UE8M0 FP8 微缩格式存储权重与激活。
官方还指出,V3.1 升级将语料扩充至 14.8 万亿 Token,并将思考流程直接融入主模型,使用户不必切换到独立的推理版本。
聊天模板与工具能力
DeepSeek-V3.1 引入统一聊天模板,可在非思考与思考前缀之间切换,并在多轮对话中保留新的 </think> 标记。代码代理、搜索代理及工具调用格式全部定义在仓库资产中,因此同一套权重可驱动结构化智能体。Terminus 完整继承这些模板,现有基于 V3.1 的工具链无需改造即可兼容。
基准表现
与 8 月版 V3.1 相比,Terminus 在推理与智能体任务上取得小幅提升:MMLU-Pro 从 84.8 升至 85.0,SWE Verified 从 66.0 升至 68.4,SWE-bench Multilingual 从 54.5 升至 57.8。BrowseComp 由 30.0 提升到 38.5,Terminal-bench 则从 31.3 上升到 36.7。这些变化主要得益于 Terminus 引入的解码和代理模板调整。
早期的 V3.1 相较 DeepSeek V3 已取得全面提升,包括更稳健的工具调用、更高的数学通过率以及代码生成表现,并在思考模式下与 DeepSeek-R1-0528 持平,同时响应速度更快。
多语言稳定性与已知问题
Terminus 有针对性地解决中英文混排与异常字符问题,并重新校准随模型发布的 Code Agent 与 Search Agent 模板。DeepSeek 还提示当前版本存在已知问题:self_attn.o_proj 参数暂未完全符合 UE8M0 FP8 的刻度,后续将发布修复版本。
价格与获取方式
DeepSeek 公共 API 为 V3.1 系列提供分时阶梯计费:高峰期缓存未命中时每百万输入 Token 收费 0.27 美元(缓存命中为 0.07 美元),高峰输出 Token 为 1.10 美元,并在低谷时段提供五折优惠。由于 DeepSeek 的 App、Web 与 API 端点已经全面切换到 Terminus,升级主要聚焦于重新验证提示词,而无需更换终端。
若选择自托管,可在 Hugging Face 获取 MIT 许可证的 BF16、FP8(E4M3)与 FP32 精度检查点,涵盖 Base、V3.1 与 Terminus;ModelScope 也提供中国大陆镜像。统一架构意味着团队可以先在 Base 上完成定制调优,再在稳定性需求明确后替换为 Terminus。
落地清单
- 判断需求:若追求原始 MoE 控制可选 Base,需要现成指令对齐可选 V3.1,优先多语言与代理稳定性则直接部署 Terminus。
- 重新执行评估套件,尤其是 SWE-bench Multilingual 与 BrowseComp,确认 Terminus 的解码调整对业务有正向影响。
- 如果依赖自定义 FP8 内核,提前规划
self_attn.o_proj标度修正带来的兼容性影响。 - 根据最新的分时计费模型更新 API 预算,并将 Terminus 改进后的代理成功率纳入成本预测。
全面理解 Base、V3.1 与 Terminus 在对齐方式、工具链与基准表现上的差异,有助于团队选择最适合的构建起点与升级节奏。