Deep Dive
9 minutes 分読み取り
DeepSeek Insights Team

DeepSeek V3.1 Terminus 徹底解説

DeepSeek V3.1 Terminus 徹底解説

DeepSeek V3.1 は 2025 年 8 月 19 日に DeepSeek V3 の段階的アップグレードとして登場しました。その後の Terminus 版は Mixture-of-Experts の骨格を保ったまま、多言語整合性とエージェント信頼性を一段と引き上げています。本稿では DeepSeek-V3.1-Base、DeepSeek-V3.1、DeepSeek-V3.1-Terminus の 3 つのチェックポイントを比較します。

バージョン一覧

バージョン位置付け主な機能
DeepSeek-V3.1-Base追加事前学習やドメイン適応向けの基盤チェックポイント総パラメータ 6,710 億、トークン当たり約 370 億が活性化、コンテキスト 128K、MIT ライセンスで下流チューニングに利用可能。
DeepSeek-V3.1Thinking/Non-thinking の両モードを備えた指示追従チャットモデルチャットテンプレートと最適化されたツール呼び出しを追加し、DeepSeek V3 と同じアーキテクチャで推論効率を向上。
DeepSeek-V3.1-TerminusV3.1 を基盤にした信頼性強化版言語混在を抑え、コード/検索エージェントを改善し、ベンチマークを底上げしつつ構造は据え置き。

アーキテクチャと学習構成

3 つのチェックポイントはいずれも DeepSeek MoE 設計を共有し、総パラメータ 6,710 億、トークン当たり約 370 億を活性化し、コンテキスト長は 128K トークンです。V3.1 は Base を基盤に長文学習を 2 段階で拡張し、32K フェーズを 6300 億トークン、128K フェーズを 2090 億トークンまで広げ、重みと活性化に UE8M0 FP8 マイクロスケーリングを採用しています。

さらに DeepSeek は、V3.1 アップグレードでコーパスを合計 14.8 兆トークンに拡充し、思考プロセスをメインモデルに直接統合したため、別リリースへ切り替える必要がなくなったと説明しています。

チャットテンプレートとツール連携

DeepSeek-V3.1 は統一チャットテンプレートを導入し、Non-thinking と Thinking のプレフィックスを切り替えながら、新しい </think> トークンをマルチターン会話に保持します。ツール呼び出し、コードエージェント、検索エージェントのフォーマットも公式アセットで定義され、同一の重みで構造化エージェントを駆動できます。Terminus はこれらのテンプレートをそのまま引き継ぐため、既存の統合は変更不要です。

ベンチマークのポイント

8 月版と比べて Terminus は着実な伸びを示します。MMLU-Pro は 84.8 から 85.0、SWE Verified は 66.0 から 68.4、SWE-bench Multilingual は 54.5 から 57.8 へ向上。BrowseComp は 30.0 から 38.5、Terminal-bench は 31.3 から 36.7 へ上がり、Terminus のデコーダ調整やエージェントテンプレート改良が反映されています。

従来の V3.1 もすでに DeepSeek V3 を上回り、ツール活用、数学タスク成功率、コード生成のいずれも改善し、Thinking モードでは DeepSeek-R1-0528 と同水準の性能を維持しつつ応答が高速です。

言語の安定性と既知の課題

Terminus は特に中英混在や異常文字を抑制し、同梱される Code Agent / Search Agent テンプレートも再調整しています。現行チェックポイントには既知の課題があり、self_attn.o_proj パラメータは UE8M0 FP8 スケールに完全対応しておらず、後続リリースで修正予定です。

価格とアクセス

DeepSeek 公開 API は V3.1 ファミリーを時間帯別トークン課金で提供します。ピーク時のキャッシュミスでは入力トークン 100 万あたり 0.27 ドル(キャッシュヒット時 0.07 ドル)、出力トークンは 1.10 ドルで、オフピークは半額です。アプリ・ウェブ・API はすでに Terminus へ移行済みのため、アップデートは主にプロンプト検証に集中します。

セルフホスティングの場合、Hugging Face で MIT ライセンスの BF16 / FP8(E4M3) / FP32 チェックポイント(Base・V3.1・Terminus)が入手でき、中国本土向けには ModelScope のミラーが用意されています。共通アーキテクチャにより、Base でカスタム調整を行ってから、安定性要件に合わせて Terminus へ差し替えることも容易です。

導入チェックリスト

  1. 目的を明確化:素の MoE 制御が必要なら Base、即戦力の指示追従なら V3.1、多言語とエージェント安定性を重視するなら Terminus。
  2. Terminus のデコーダ変更が効果的かを確認するため、SWE-bench Multilingual や BrowseComp などの評価スイートを再実行。
  3. 独自の FP8 カーネルを使う場合は、self_attn.o_proj スケール修正による影響を事前に考慮。
  4. 時間帯別課金と Terminus の成功率向上を踏まえ、API 予算モデルを更新。

Base・V3.1・Terminus のアラインメント、ツール連携、ベンチマーク差分を把握すれば、自組織に最適な出発点とアップグレード計画を描けます。

関連記事

Moonshot AIがKimi K2.6を正式出荷しました。Code Previewブランチを一般提供モデルへと昇格させ、12時間の自律コーディングセッション、300エージェントのスウォーム、フルスタック生成に対応しています。何が変わったのか、それが何を意味するのか、そしてどう活用するかを解説します。
Kimi K2.6について問うべき興味深い問いは、それが何をするかではなく、どのような種類のモデルを明らかにホストするために構築されているかだ。12時間実行、300エージェントの群れ、コンテキスト圧縮機を荷重を支えるインフラとして捉えると、K3の輪郭が見えてくる。
2026年4月13日、Moonshot AIはKimi K2.6 Code Previewのベータテスト開始を正式に確認しました。1兆パラメータのMoEアーキテクチャを基盤とするこの次世代モデルは、コード生成とエージェント機能で大幅な向上を実現しています。