DeepSeek V3.1 Terminus と Kimi K2-0905 の比較:2025 年 Q4 のエージェント基盤を選ぶ
リリース時期と狙い
DeepSeek は 2025 年 9 月 22 日に Terminus パッチを公開し、多言語整合性とコード/検索エージェントのテンプレートを改良しました。既存の Web・アプリ・API 利用者は追加作業なしでアップデートを享受できます。 Moonshot AI は 2025 年 9 月 5 日に Kimi K2-0905 を投入し、エージェント型コーディング、フロントエンド品質、コンテキスト窓拡張を強化しています。
アーキテクチャ・コンテキスト・提供形態
両モデルとも MoE を採用していますが、重視するポイントが異なります。
| 指標 | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|
| 総パラメータ / 有効パラメータ | 685B / 約 37B | 1T / 32B |
| レイヤー当たりの専門家数 | 9 | 384 中 8 |
| コンテキスト窓 | 128K tokens | 256K tokens |
| 標準モード | Swift(低レイテンシ)と Think(深い推論) | ツール連携向けの単一プロファイル |
| 配布 | MIT ライセンスの重み(Hugging Face・ModelScope) | MIT 派生の重み + マネージド API |
Terminus は Swift/Think と 128K 窓を維持し、スループットと推論深度のバランスを狙います。 K2-0905 は 1T/32B 構成のままコンテキスト窓を 256K に倍増し、大規模リポジトリや長文ブリーフを一度に扱えるようにしています。
ベンチマークとエージェント安定性
8 月版と比べ、Terminus は各種エージェント系ベンチマークで改善を示しました。
| ベンチマーク(エージェント設定) | DeepSeek V3.1(2025 年 8 月) | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|---|
| SWE-bench Multilingual | 54.5 | 57.8 | 55.9 |
| SWE Verified | 66.0 | 68.4 | 69.2 |
| Terminal-bench | 31.3 | 36.7 | 44.5 |
| BrowseComp | 30.0 | 38.5 | n/a |
| LiveCodeBench | 56.4 | 60.0(成功率向上) | 61.0 |
Terminus の向上は、多言語出力の安定化とエージェントテンプレート刷新の成果を裏付けます。 一方で K2-0905 は Terminal-bench と SWE Verified で先行し、フルスタック開発に軸足を置く姿勢を保っています。
価格スナップショット(USD / 100 万 tokens、2025 年 9 月)
| 提供ルート | 入力(キャッシュ有) | 入力(キャッシュ無) | 出力 |
|---|---|---|---|
| DeepSeek API(9 月 5 日以降) | $0.07 | $0.27 | $1.10 |
| Novita サーバーレス K2-0905 | — | $0.60 | $2.50 |
| Groq ホスト型 K2-0905 | — | $1.00 | $3.00 |
| LangDB ゲートウェイ K2-0905 | — | $0.49 | $1.99 |
DeepSeek は 2025 年 9 月 5 日の改定で Terminus・Swift・Think の料金を一本化しました。 Kimi の料金はディストリビューターにより異なり、Novita($0.60/$2.50)、Groq($1.00/$3.00)、LangDB($0.49/$1.99)と幅があります。
エコシステムとデプロイの要点
- セルフホスト: Terminus は BF16/FP8/FP32 重みを MIT で提供し、VPC やオンプレミスでの構築に適しています。
- マネージド加速: K2-0905 は Groq・Novita・Kimi Cloud 経由で 60–200+ tokens/s を実現し、運用負荷を抑えられます。
- 多言語の堅牢性: Terminus は英中混在を抑制し、手動での修正を削減します。
- フロントエンド品質: Moonshot は React/Vue コンポーネントの美的・構造的向上を強調しています。
判断のためのチェックリスト
- 主用途: マルチリンガル品質とコントロール可能なデプロイが重要なら Terminus、256K コンテキストやターミナル自動化を重視するなら K2-0905。
- ハイブリッド運用: 計画工程を Terminus(Swift/Think)に、長尺のコーディング実行を Kimi に割り当てて成功率を高める。
- コスト管理: DeepSeek の固定料金と、Novita/Groq/LangDB など Kimi 提供ルートの価格を比較する(差は最大 4 倍以上)。
- ガバナンス: Terminus は完全に自社環境で運用可能。Kimi のマネージドサービスは運用が容易だが、法規制やデータ所在を確認すべき。
リリース時期、アーキテクチャ、ベンチマーク、料金を総合的に把握することで、deepseek v3.1 terminus と Kimi K2-0905 を 2025 年第 4 四半期のエージェント階層へ的確に配置できます。