DeepSeek V3.1 erschien am 19. August 2025 als inkrementelles Upgrade von DeepSeek V3. Das Terminus-Update verschärft nun die mehrsprachige Konsistenz und Agentenstabilität, ohne die Mixture-of-Experts-Architektur zu verändern. Dieser Leitfaden stellt die drei relevanten Checkpoints gegenüber: DeepSeek-V3.1-Base, DeepSeek-V3.1 und DeepSeek-V3.1-Terminus.

Versionsüberblick

Version	Einordnung	Zentrale Fähigkeiten
DeepSeek-V3.1-Base	Foundation-Checkpoint für eigenes Pretraining oder Domänenanpassung	671 Milliarden Gesamtparameter mit rund 37 Milliarden aktiven Parametern pro Token, 128K Kontextfenster, MIT-Lizenz für Downstream-Tuning.
DeepSeek-V3.1	Instruktionsabgestimmtes Chatmodell mit Thinking- und Non-Thinking-Modi	Ergänzt Chat-Templates, optimierte Tool-Nutzung und höhere Reasoning-Effizienz gegenüber DeepSeek V3 bei unverändertem Backbone.
DeepSeek-V3.1-Terminus	Zuverlässigkeits-Patch auf Basis von V3.1	Behebt Sprachmischung, verbessert Code- und Suchagenten und steigert Benchmarks, ohne die Kernstruktur zu ändern.

Architektur und Trainings-Stack

Alle drei Checkpoints teilen sich das DeepSeek-MoE-Design mit 671 Milliarden Expertenparametern und etwa 37 Milliarden aktiven Parametern pro Token sowie einem Kontextfenster von 128K Tokens. V3.1 baut auf dem Base-Checkpoint auf, verlängert das Long-Context-Training in zwei Phasen (32K auf 630 Milliarden Tokens, 128K auf 209 Milliarden Tokens) und setzt UE8M0-FP8-Microscaling für Gewichte und Aktivierungen ein.

DeepSeek berichtet zudem, dass das V3.1-Upgrade den Korpus auf 14,8 Billionen Tokens ausweitet und den Thinking-Workflow direkt ins Hauptmodell integriert, sodass kein separater Reasoning-Release mehr erforderlich ist.

Chat-Templates und Tooling

DeepSeek-V3.1 führt ein einheitliches Chat-Template ein, das zwischen Non-Thinking- und Thinking-Präfixen umschalten kann und das neue </think>-Token über mehrere Turns hinweg beibehält. Tool Calling, Code Agent und Search Agent sind in den Repository-Assets beschrieben, wodurch dieselben Gewichte strukturierte Agents antreiben. Terminus behält diese Templates unverändert bei, sodass bestehende Integrationen ohne Anpassung weiterlaufen.

Benchmark-Highlights

Gegenüber der August-Version verzeichnet Terminus leichte Zugewinne: MMLU-Pro steigt von 84,8 auf 85,0, SWE Verified von 66,0 auf 68,4 und SWE-bench Multilingual von 54,5 auf 57,8. BrowseComp verbessert sich von 30,0 auf 38,5, Terminal-bench von 31,3 auf 36,7. Diese Verbesserungen resultieren aus den aktualisierten Decoder- und Agent-Templates in Terminus.

Der frühere V3.1-Release brachte bereits bessere Tool-Nutzung, höhere Mathematik-Erfolgsraten und stärkere Codegenerierung im Vergleich zu DeepSeek V3, bei vergleichbarer Thinking-Leistung zu DeepSeek-R1-0528 und kürzerer Reaktionszeit.

Sprachzuverlässigkeit und bekannte Probleme

Terminus zielt speziell auf konsistente Sprachwahl, reduziert gemischte Chinesisch-Englisch-Ausgaben und bereinigt Sonderzeichen. Gleichzeitig werden die mitgelieferten Code-Agent- und Search-Agent-Templates überarbeitet. DeepSeek weist auf ein bekanntes Problem hin: Die self_attn.o_proj-Parameter entsprechen derzeit nicht vollständig der UE8M0-FP8-Skalierung und werden in einem künftigen Patch korrigiert.

Preisgestaltung und Zugriff

Die öffentliche DeepSeek-API bietet die V3.1-Familie mit zeitabhängiger Token-Bepreisung: 0,27 US-Dollar pro Million Eingabetokens bei Cache-Miss (0,07 US-Dollar bei Cache-Hit) sowie 1,10 US-Dollar pro Million Ausgabetokens während Peak-Zeiten, halbiert in Nebenzeiten. Da App, Web und API bereits auf Terminus laufen, beschränkt sich das Upgrade in der Praxis auf Prompt-Validierung.

Für Self-Hosting stehen MIT-lizenzierte Checkpoints in BF16-, FP8-(E4M3)- und FP32-Präzision auf Hugging Face bereit; ModelScope bietet Spiegel für Festland-China. Dank der gemeinsamen Architektur lässt sich ein kundenspezifisch feinabgestimmter Base-Checkpoint später problemlos durch Terminus ersetzen, sobald höhere Stabilitätsanforderungen erfüllt werden müssen.

Umsetzungsschritte

Bedarf definieren: Rohes MoE-Controlling (Base), sofortige Instruktionsbefolgung (V3.1) oder gesteigerte Mehrsprachigkeit und Agentenstabilität (Terminus).
Evaluationssuiten wie SWE-bench Multilingual und BrowseComp erneut ausführen, um den Effekt der Terminus-Decoderänderungen zu überprüfen.
Bei eigenen FP8-Kernen die geplante Korrektur von self_attn.o_proj berücksichtigen.
API-Budgets an die zeitabhängige Preisstruktur und die verbesserten Agentenerfolgsraten von Terminus anpassen.

Mit einer klaren Trennung zwischen Base, V3.1 und Terminus in Hinblick auf Alignment, Tooling und Benchmarks finden Teams den passenden Startpunkt und Fahrplan für ihre Produktionseinführung.

DeepSeek V3.1 Terminus: Umfassende Analyse

Versionsüberblick

Architektur und Trainings-Stack

Chat-Templates und Tooling

Benchmark-Highlights

Sprachzuverlässigkeit und bekannte Probleme

Preisgestaltung und Zugriff

Umsetzungsschritte

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Verwandte Artikel