DeepSeek V3.1 Terminus: Umfassende Analyse
DeepSeek V3.1 Terminus: Umfassende Analyse
DeepSeek V3.1 erschien am 19. August 2025 als inkrementelles Upgrade von DeepSeek V3. Das Terminus-Update verschärft nun die mehrsprachige Konsistenz und Agentenstabilität, ohne die Mixture-of-Experts-Architektur zu verändern. Dieser Leitfaden stellt die drei relevanten Checkpoints gegenüber: DeepSeek-V3.1-Base, DeepSeek-V3.1 und DeepSeek-V3.1-Terminus.
Versionsüberblick
| Version | Einordnung | Zentrale Fähigkeiten |
|---|---|---|
| DeepSeek-V3.1-Base | Foundation-Checkpoint für eigenes Pretraining oder Domänenanpassung | 671 Milliarden Gesamtparameter mit rund 37 Milliarden aktiven Parametern pro Token, 128K Kontextfenster, MIT-Lizenz für Downstream-Tuning. |
| DeepSeek-V3.1 | Instruktionsabgestimmtes Chatmodell mit Thinking- und Non-Thinking-Modi | Ergänzt Chat-Templates, optimierte Tool-Nutzung und höhere Reasoning-Effizienz gegenüber DeepSeek V3 bei unverändertem Backbone. |
| DeepSeek-V3.1-Terminus | Zuverlässigkeits-Patch auf Basis von V3.1 | Behebt Sprachmischung, verbessert Code- und Suchagenten und steigert Benchmarks, ohne die Kernstruktur zu ändern. |
Architektur und Trainings-Stack
Alle drei Checkpoints teilen sich das DeepSeek-MoE-Design mit 671 Milliarden Expertenparametern und etwa 37 Milliarden aktiven Parametern pro Token sowie einem Kontextfenster von 128K Tokens. V3.1 baut auf dem Base-Checkpoint auf, verlängert das Long-Context-Training in zwei Phasen (32K auf 630 Milliarden Tokens, 128K auf 209 Milliarden Tokens) und setzt UE8M0-FP8-Microscaling für Gewichte und Aktivierungen ein.
DeepSeek berichtet zudem, dass das V3.1-Upgrade den Korpus auf 14,8 Billionen Tokens ausweitet und den Thinking-Workflow direkt ins Hauptmodell integriert, sodass kein separater Reasoning-Release mehr erforderlich ist.
Chat-Templates und Tooling
DeepSeek-V3.1 führt ein einheitliches Chat-Template ein, das zwischen Non-Thinking- und Thinking-Präfixen umschalten kann und das neue </think>-Token über mehrere Turns hinweg beibehält. Tool Calling, Code Agent und Search Agent sind in den Repository-Assets beschrieben, wodurch dieselben Gewichte strukturierte Agents antreiben. Terminus behält diese Templates unverändert bei, sodass bestehende Integrationen ohne Anpassung weiterlaufen.
Benchmark-Highlights
Gegenüber der August-Version verzeichnet Terminus leichte Zugewinne: MMLU-Pro steigt von 84,8 auf 85,0, SWE Verified von 66,0 auf 68,4 und SWE-bench Multilingual von 54,5 auf 57,8. BrowseComp verbessert sich von 30,0 auf 38,5, Terminal-bench von 31,3 auf 36,7. Diese Verbesserungen resultieren aus den aktualisierten Decoder- und Agent-Templates in Terminus.
Der frühere V3.1-Release brachte bereits bessere Tool-Nutzung, höhere Mathematik-Erfolgsraten und stärkere Codegenerierung im Vergleich zu DeepSeek V3, bei vergleichbarer Thinking-Leistung zu DeepSeek-R1-0528 und kürzerer Reaktionszeit.
Sprachzuverlässigkeit und bekannte Probleme
Terminus zielt speziell auf konsistente Sprachwahl, reduziert gemischte Chinesisch-Englisch-Ausgaben und bereinigt Sonderzeichen. Gleichzeitig werden die mitgelieferten Code-Agent- und Search-Agent-Templates überarbeitet. DeepSeek weist auf ein bekanntes Problem hin: Die self_attn.o_proj-Parameter entsprechen derzeit nicht vollständig der UE8M0-FP8-Skalierung und werden in einem künftigen Patch korrigiert.
Preisgestaltung und Zugriff
Die öffentliche DeepSeek-API bietet die V3.1-Familie mit zeitabhängiger Token-Bepreisung: 0,27 US-Dollar pro Million Eingabetokens bei Cache-Miss (0,07 US-Dollar bei Cache-Hit) sowie 1,10 US-Dollar pro Million Ausgabetokens während Peak-Zeiten, halbiert in Nebenzeiten. Da App, Web und API bereits auf Terminus laufen, beschränkt sich das Upgrade in der Praxis auf Prompt-Validierung.
Für Self-Hosting stehen MIT-lizenzierte Checkpoints in BF16-, FP8-(E4M3)- und FP32-Präzision auf Hugging Face bereit; ModelScope bietet Spiegel für Festland-China. Dank der gemeinsamen Architektur lässt sich ein kundenspezifisch feinabgestimmter Base-Checkpoint später problemlos durch Terminus ersetzen, sobald höhere Stabilitätsanforderungen erfüllt werden müssen.
Umsetzungsschritte
- Bedarf definieren: Rohes MoE-Controlling (Base), sofortige Instruktionsbefolgung (V3.1) oder gesteigerte Mehrsprachigkeit und Agentenstabilität (Terminus).
- Evaluationssuiten wie SWE-bench Multilingual und BrowseComp erneut ausführen, um den Effekt der Terminus-Decoderänderungen zu überprüfen.
- Bei eigenen FP8-Kernen die geplante Korrektur von
self_attn.o_projberücksichtigen. - API-Budgets an die zeitabhängige Preisstruktur und die verbesserten Agentenerfolgsraten von Terminus anpassen.
Mit einer klaren Trennung zwischen Base, V3.1 und Terminus in Hinblick auf Alignment, Tooling und Benchmarks finden Teams den passenden Startpunkt und Fahrplan für ihre Produktionseinführung.