DeepSeek V3.1 Terminus 徹底解説
DeepSeek V3.1 Terminus 徹底解説
DeepSeek V3.1 は 2025 年 8 月 19 日に DeepSeek V3 の段階的アップグレードとして登場しました。その後の Terminus 版は Mixture-of-Experts の骨格を保ったまま、多言語整合性とエージェント信頼性を一段と引き上げています。本稿では DeepSeek-V3.1-Base、DeepSeek-V3.1、DeepSeek-V3.1-Terminus の 3 つのチェックポイントを比較します。
バージョン一覧
| バージョン | 位置付け | 主な機能 |
|---|---|---|
| DeepSeek-V3.1-Base | 追加事前学習やドメイン適応向けの基盤チェックポイント | 総パラメータ 6,710 億、トークン当たり約 370 億が活性化、コンテキスト 128K、MIT ライセンスで下流チューニングに利用可能。 |
| DeepSeek-V3.1 | Thinking/Non-thinking の両モードを備えた指示追従チャットモデル | チャットテンプレートと最適化されたツール呼び出しを追加し、DeepSeek V3 と同じアーキテクチャで推論効率を向上。 |
| DeepSeek-V3.1-Terminus | V3.1 を基盤にした信頼性強化版 | 言語混在を抑え、コード/検索エージェントを改善し、ベンチマークを底上げしつつ構造は据え置き。 |
アーキテクチャと学習構成
3 つのチェックポイントはいずれも DeepSeek MoE 設計を共有し、総パラメータ 6,710 億、トークン当たり約 370 億を活性化し、コンテキスト長は 128K トークンです。V3.1 は Base を基盤に長文学習を 2 段階で拡張し、32K フェーズを 6300 億トークン、128K フェーズを 2090 億トークンまで広げ、重みと活性化に UE8M0 FP8 マイクロスケーリングを採用しています。
さらに DeepSeek は、V3.1 アップグレードでコーパスを合計 14.8 兆トークンに拡充し、思考プロセスをメインモデルに直接統合したため、別リリースへ切り替える必要がなくなったと説明しています。
チャットテンプレートとツール連携
DeepSeek-V3.1 は統一チャットテンプレートを導入し、Non-thinking と Thinking のプレフィックスを切り替えながら、新しい </think> トークンをマルチターン会話に保持します。ツール呼び出し、コードエージェント、検索エージェントのフォーマットも公式アセットで定義され、同一の重みで構造化エージェントを駆動できます。Terminus はこれらのテンプレートをそのまま引き継ぐため、既存の統合は変更不要です。
ベンチマークのポイント
8 月版と比べて Terminus は着実な伸びを示します。MMLU-Pro は 84.8 から 85.0、SWE Verified は 66.0 から 68.4、SWE-bench Multilingual は 54.5 から 57.8 へ向上。BrowseComp は 30.0 から 38.5、Terminal-bench は 31.3 から 36.7 へ上がり、Terminus のデコーダ調整やエージェントテンプレート改良が反映されています。
従来の V3.1 もすでに DeepSeek V3 を上回り、ツール活用、数学タスク成功率、コード生成のいずれも改善し、Thinking モードでは DeepSeek-R1-0528 と同水準の性能を維持しつつ応答が高速です。
言語の安定性と既知の課題
Terminus は特に中英混在や異常文字を抑制し、同梱される Code Agent / Search Agent テンプレートも再調整しています。現行チェックポイントには既知の課題があり、self_attn.o_proj パラメータは UE8M0 FP8 スケールに完全対応しておらず、後続リリースで修正予定です。
価格とアクセス
DeepSeek 公開 API は V3.1 ファミリーを時間帯別トークン課金で提供します。ピーク時のキャッシュミスでは入力トークン 100 万あたり 0.27 ドル(キャッシュヒット時 0.07 ドル)、出力トークンは 1.10 ドルで、オフピークは半額です。アプリ・ウェブ・API はすでに Terminus へ移行済みのため、アップデートは主にプロンプト検証に集中します。
セルフホスティングの場合、Hugging Face で MIT ライセンスの BF16 / FP8(E4M3) / FP32 チェックポイント(Base・V3.1・Terminus)が入手でき、中国本土向けには ModelScope のミラーが用意されています。共通アーキテクチャにより、Base でカスタム調整を行ってから、安定性要件に合わせて Terminus へ差し替えることも容易です。
導入チェックリスト
- 目的を明確化:素の MoE 制御が必要なら Base、即戦力の指示追従なら V3.1、多言語とエージェント安定性を重視するなら Terminus。
- Terminus のデコーダ変更が効果的かを確認するため、SWE-bench Multilingual や BrowseComp などの評価スイートを再実行。
- 独自の FP8 カーネルを使う場合は、
self_attn.o_projスケール修正による影響を事前に考慮。 - 時間帯別課金と Terminus の成功率向上を踏まえ、API 予算モデルを更新。
Base・V3.1・Terminus のアラインメント、ツール連携、ベンチマーク差分を把握すれば、自組織に最適な出発点とアップグレード計画を描けます。