Deep Dive
9 minutes 分钟阅读
DeepSeek Insights Team

DeepSeek V3.1 Terminus 全面解析

DeepSeek V3.1 Terminus 全面解析

DeepSeek V3.1 于 2025 年 8 月 19 日首次发布,作为 DeepSeek V3 的一次迭代升级。后续推出的 Terminus 版本在保持相同 Mixture-of-Experts 主干的前提下,进一步强化多语言一致性与智能体可靠性。本文聚焦三个关键检查点:DeepSeek-V3.1-Base、DeepSeek-V3.1 与 DeepSeek-V3.1-Terminus。

版本全景

版本定位主要能力
DeepSeek-V3.1-Base面向二次预训练或领域自适应的基础权重6710 亿参数,总计每个 Token 激活约 370 亿参数,支持 128K 上下文,MIT 许可证开放,可直接用于下游调优。
DeepSeek-V3.1具备思考与非思考双模板的指令对齐模型在 Base 基础上引入聊天模板、优化工具调用,在保持架构不变的前提下提升推理效率。
DeepSeek-V3.1-Terminus建立在 V3.1 之上的可靠性增强版针对语言混用和智能体行为进行修复,提升代码与搜索代理表现,同时保留原有结构。

架构与训练栈

三种检查点均采用 DeepSeek MoE 设计,总计 6710 亿专家参数、每个 Token 激活约 370 亿参数,并支持 128K Token 上下文。V3.1 在 Base 基础上延长了长上下文训练流程:32K 阶段扩展至 6300 亿 Token,128K 阶段扩展至 2090 亿 Token,同时使用 UE8M0 FP8 微缩格式存储权重与激活。

官方还指出,V3.1 升级将语料扩充至 14.8 万亿 Token,并将思考流程直接融入主模型,使用户不必切换到独立的推理版本。

聊天模板与工具能力

DeepSeek-V3.1 引入统一聊天模板,可在非思考与思考前缀之间切换,并在多轮对话中保留新的 </think> 标记。代码代理、搜索代理及工具调用格式全部定义在仓库资产中,因此同一套权重可驱动结构化智能体。Terminus 完整继承这些模板,现有基于 V3.1 的工具链无需改造即可兼容。

基准表现

与 8 月版 V3.1 相比,Terminus 在推理与智能体任务上取得小幅提升:MMLU-Pro 从 84.8 升至 85.0,SWE Verified 从 66.0 升至 68.4,SWE-bench Multilingual 从 54.5 升至 57.8。BrowseComp 由 30.0 提升到 38.5,Terminal-bench 则从 31.3 上升到 36.7。这些变化主要得益于 Terminus 引入的解码和代理模板调整。

早期的 V3.1 相较 DeepSeek V3 已取得全面提升,包括更稳健的工具调用、更高的数学通过率以及代码生成表现,并在思考模式下与 DeepSeek-R1-0528 持平,同时响应速度更快。

多语言稳定性与已知问题

Terminus 有针对性地解决中英文混排与异常字符问题,并重新校准随模型发布的 Code Agent 与 Search Agent 模板。DeepSeek 还提示当前版本存在已知问题:self_attn.o_proj 参数暂未完全符合 UE8M0 FP8 的刻度,后续将发布修复版本。

价格与获取方式

DeepSeek 公共 API 为 V3.1 系列提供分时阶梯计费:高峰期缓存未命中时每百万输入 Token 收费 0.27 美元(缓存命中为 0.07 美元),高峰输出 Token 为 1.10 美元,并在低谷时段提供五折优惠。由于 DeepSeek 的 App、Web 与 API 端点已经全面切换到 Terminus,升级主要聚焦于重新验证提示词,而无需更换终端。

若选择自托管,可在 Hugging Face 获取 MIT 许可证的 BF16、FP8(E4M3)与 FP32 精度检查点,涵盖 Base、V3.1 与 Terminus;ModelScope 也提供中国大陆镜像。统一架构意味着团队可以先在 Base 上完成定制调优,再在稳定性需求明确后替换为 Terminus。

落地清单

  1. 判断需求:若追求原始 MoE 控制可选 Base,需要现成指令对齐可选 V3.1,优先多语言与代理稳定性则直接部署 Terminus。
  2. 重新执行评估套件,尤其是 SWE-bench Multilingual 与 BrowseComp,确认 Terminus 的解码调整对业务有正向影响。
  3. 如果依赖自定义 FP8 内核,提前规划 self_attn.o_proj 标度修正带来的兼容性影响。
  4. 根据最新的分时计费模型更新 API 预算,并将 Terminus 改进后的代理成功率纳入成本预测。

全面理解 Base、V3.1 与 Terminus 在对齐方式、工具链与基准表现上的差异,有助于团队选择最适合的构建起点与升级节奏。

相关文章

月之暗面正式发布 Kimi K2.6,将 Code Preview 分支升级为通用可用模型,支持 12 小时自主编码、300 智能体协同、全栈生成。本文解读版本变化、实际意义以及落地用法。
关于 Kimi K2.6,真正值得追问的不是它能做什么,而是它明显在为怎样的模型搭建舞台。把 12 小时长跑、300 智能体 Swarm、上下文压缩器当作承重的基础设施来读,K3 的形态就显出来了。
月之暗面于 2026 年 4 月 13 日正式确认 Kimi K2.6 Code Preview 进入内测阶段,这款基于万亿参数 MoE 架构的下一代模型在代码生成与 Agent 能力上实现了显著提升。本文全面解读其技术细节与发展前瞻。