Model Comparison
8 minutes 分钟阅读
AI 分析团队
DeepSeek V3.1 Terminus 对比 Kimi K2-0905:2025 年四季度智能体选型指南
发布节奏与定位
DeepSeek 于 2025 年 9 月 22 日推出 Terminus 补丁版,在不打断现有 Web、App 与 API 的前提下,重点修复跨语言输出与代理模板。 Moonshot AI 则在 2025 年 9 月 5 日发布 Kimi K2-0905,聚焦智能编程、前端美学以及上下文长度扩展。
架构、上下文与服务形态
两款模型依旧使用稀疏 MoE 结构,但取舍不同:
| 维度 | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|
| 总参数 / 激活参数 | 685B 总量,单 Token 激活约 37B | 1T 总量,单次激活 32B |
| 每层专家数 | 9 个专家(粒度更细) | 384 名专家中动用 8 个(专家池更大) |
| 上下文窗口 | 128K tokens | 256K tokens |
| 默认模式 | Swift(低延迟)+ Think(深度推理) | 单一推理档,针对工具链编码优化 |
| 分发方式 | MIT 许可开源权重(Hugging Face & ModelScope) | MIT 衍生权重 + 官方/合作方托管服务 |
Terminus 延续 Swift/Think 双模式与 128K 窗口,以平衡吞吐与推理深度。 K2-0905 保持 1T/32B 架构并把上下文扩展到 256K,有利于整仓代码审查与长篇设计稿。
基准测试与代理稳定性
相较 8 月版本,Terminus 在多项代理场景获得显著提升:
| 基准(代理配置) | DeepSeek V3.1(2025 年 8 月) | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|---|
| SWE-bench Multilingual | 54.5 | 57.8 | 55.9 |
| SWE Verified | 66.0 | 68.4 | 69.2 |
| Terminal-bench | 31.3 | 36.7 | 44.5 |
| BrowseComp | 30.0 | 38.5 | n/a |
| LiveCodeBench | 56.4 | 60.0(代理成功率提升) | 61.0 |
Terminus 收敛跨语言错配并刷新 Terminal-bench 与 BrowseComp,印证代码/搜索代理模板更新的效果。 K2-0905 仍在 Terminal-bench 与 SWE Verified 保持优势,符合其“全栈软件”定位。
价格快照(美元 / 百万 tokens,2025 年 9 月)
| 接入途径 | 输入(缓存命中) | 输入(缓存未命中) | 输出 |
|---|---|---|---|
| DeepSeek 官方 API(9 月 5 日后) | $0.07 | $0.27 | $1.10 |
| Novita 无服务器 Kimi K2-0905 | — | $0.60 | $2.50 |
| Groq 托管 Kimi K2-0905 | — | $1.00 | $3.00 |
| LangDB 聚合层 Kimi K2-0905 | — | $0.49 | $1.99 |
DeepSeek 自 9 月 5 日起统一 Terminus、Swift、Think 的计价档,方便内部预算管理。 Kimi 的价格取决于分发渠道:Novita 报价 $0.60 / $2.50,Groq 主打 $1.00 / $3.00 的低延时算力,LangDB 则提供 $0.49 / $1.99 的聚合出口。
生态与部署提示
- 自托管优势: Terminus 提供 BF16/FP8/FP32 权重,可在自建集群或专有云中落地,满足合规与数据主权诉求。
- 托管加速: K2-0905 通过 Groq、Novita、Kimi Cloud 等渠道提供 60–200+ tokens/s 吞吐,对低延迟开发者友好。
- 多语言鲁棒性: Terminus 针对代码 / 搜索代理和中英混输做了针对性修复,减少人工清洗成本。
- 前端产出质量: Moonshot 强调 K2-0905 在 React/Vue 等前端组件的结构与美观度提升,适合设计要求严格的团队。
决策清单
- 核心场景: 若重视跨语种对话质量与可控部署,优先 Terminus;若需 256K 长上下文与终端自动化吞吐,选择 K2-0905。
- 多模型编排: 可让 Terminus 负责 Swift/Think 规划,交由 Kimi 执行长链路编码任务,以提高整体成功率。
- 成本管控: 先核算 DeepSeek 平价模型的 Token 结构,再与目标 Kimi 渠道(Novita / Groq / LangDB)对比,价差最高可达 4 倍。
- 治理合规: Terminus 可完全部署在私有网络内;Kimi 的托管服务运维轻量,但需确认跨境与数据托管政策。
围绕时间线、架构差异、基准数据与价格策略的全方位分析,可以帮助团队在 2025 年四季度将 deepseek v3.1 terminus 与 Kimi K2-0905 精准放入各自擅长的智能体环节。