DeepSeek V3.1 は 2025 年 8 月 19 日に DeepSeek V3 の段階的アップグレードとして登場しました。その後の Terminus 版は Mixture-of-Experts の骨格を保ったまま、多言語整合性とエージェント信頼性を一段と引き上げています。本稿では DeepSeek-V3.1-Base、DeepSeek-V3.1、DeepSeek-V3.1-Terminus の 3 つのチェックポイントを比較します。

バージョン一覧

バージョン	位置付け	主な機能
DeepSeek-V3.1-Base	追加事前学習やドメイン適応向けの基盤チェックポイント	総パラメータ 6,710 億、トークン当たり約 370 億が活性化、コンテキスト 128K、MIT ライセンスで下流チューニングに利用可能。
DeepSeek-V3.1	Thinking/Non-thinking の両モードを備えた指示追従チャットモデル	チャットテンプレートと最適化されたツール呼び出しを追加し、DeepSeek V3 と同じアーキテクチャで推論効率を向上。
DeepSeek-V3.1-Terminus	V3.1 を基盤にした信頼性強化版	言語混在を抑え、コード/検索エージェントを改善し、ベンチマークを底上げしつつ構造は据え置き。

アーキテクチャと学習構成

3 つのチェックポイントはいずれも DeepSeek MoE 設計を共有し、総パラメータ 6,710 億、トークン当たり約 370 億を活性化し、コンテキスト長は 128K トークンです。V3.1 は Base を基盤に長文学習を 2 段階で拡張し、32K フェーズを 6300 億トークン、128K フェーズを 2090 億トークンまで広げ、重みと活性化に UE8M0 FP8 マイクロスケーリングを採用しています。

さらに DeepSeek は、V3.1 アップグレードでコーパスを合計 14.8 兆トークンに拡充し、思考プロセスをメインモデルに直接統合したため、別リリースへ切り替える必要がなくなったと説明しています。

チャットテンプレートとツール連携

DeepSeek-V3.1 は統一チャットテンプレートを導入し、Non-thinking と Thinking のプレフィックスを切り替えながら、新しい </think> トークンをマルチターン会話に保持します。ツール呼び出し、コードエージェント、検索エージェントのフォーマットも公式アセットで定義され、同一の重みで構造化エージェントを駆動できます。Terminus はこれらのテンプレートをそのまま引き継ぐため、既存の統合は変更不要です。

ベンチマークのポイント

8 月版と比べて Terminus は着実な伸びを示します。MMLU-Pro は 84.8 から 85.0、SWE Verified は 66.0 から 68.4、SWE-bench Multilingual は 54.5 から 57.8 へ向上。BrowseComp は 30.0 から 38.5、Terminal-bench は 31.3 から 36.7 へ上がり、Terminus のデコーダ調整やエージェントテンプレート改良が反映されています。

従来の V3.1 もすでに DeepSeek V3 を上回り、ツール活用、数学タスク成功率、コード生成のいずれも改善し、Thinking モードでは DeepSeek-R1-0528 と同水準の性能を維持しつつ応答が高速です。

言語の安定性と既知の課題

Terminus は特に中英混在や異常文字を抑制し、同梱される Code Agent / Search Agent テンプレートも再調整しています。現行チェックポイントには既知の課題があり、self_attn.o_proj パラメータは UE8M0 FP8 スケールに完全対応しておらず、後続リリースで修正予定です。

価格とアクセス

DeepSeek 公開 API は V3.1 ファミリーを時間帯別トークン課金で提供します。ピーク時のキャッシュミスでは入力トークン 100 万あたり 0.27 ドル（キャッシュヒット時 0.07 ドル）、出力トークンは 1.10 ドルで、オフピークは半額です。アプリ・ウェブ・API はすでに Terminus へ移行済みのため、アップデートは主にプロンプト検証に集中します。

セルフホスティングの場合、Hugging Face で MIT ライセンスの BF16 / FP8（E4M3） / FP32 チェックポイント（Base・V3.1・Terminus）が入手でき、中国本土向けには ModelScope のミラーが用意されています。共通アーキテクチャにより、Base でカスタム調整を行ってから、安定性要件に合わせて Terminus へ差し替えることも容易です。

導入チェックリスト

目的を明確化：素の MoE 制御が必要なら Base、即戦力の指示追従なら V3.1、多言語とエージェント安定性を重視するなら Terminus。
Terminus のデコーダ変更が効果的かを確認するため、SWE-bench Multilingual や BrowseComp などの評価スイートを再実行。
独自の FP8 カーネルを使う場合は、self_attn.o_proj スケール修正による影響を事前に考慮。
時間帯別課金と Terminus の成功率向上を踏まえ、API 予算モデルを更新。

Base・V3.1・Terminus のアラインメント、ツール連携、ベンチマーク差分を把握すれば、自組織に最適な出発点とアップグレード計画を描けます。

DeepSeek V3.1 Terminus 徹底解説

バージョン一覧

アーキテクチャと学習構成

チャットテンプレートとツール連携

ベンチマークのポイント

言語の安定性と既知の課題

価格とアクセス

導入チェックリスト

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

関連記事