DeepSeek V3.1 verscheen op 19 augustus 2025 als een incrementele upgrade van DeepSeek V3. De Terminus-editie behoudt dezelfde Mixture-of-Experts-backbone, maar vergroot de meertalige nauwkeurigheid en de betrouwbaarheid van agents. Deze gids vergelijkt de drie belangrijkste checkpoints: DeepSeek-V3.1-Base, DeepSeek-V3.1 en DeepSeek-V3.1-Terminus.

Versielandschap

Versie	Positionering	Belangrijkste mogelijkheden
DeepSeek-V3.1-Base	Foundation-checkpoint voor extra pretraining of domeinaanpassing	671 miljard parameters totaal, circa 37 miljard actief per token, 128K contextvenster, MIT-licentie voor downstream-tuning.
DeepSeek-V3.1	Instructie-afgestemd chatmodel met thinking- en non-thinking-modus	Voegt chattemplates, geoptimaliseerde tool-calls en hogere redeneerefficiëntie toe tegenover DeepSeek V3, met behoud van de backbone.
DeepSeek-V3.1-Terminus	Betrouwbaarheidsupgrade bovenop V3.1	Pakt taalvermenging aan, verbetert code- en zoekagents en verhoogt benchmarks zonder de structuur te wijzigen.

Architectuur en trainingsstack

Alle drie de checkpoints delen het DeepSeek-MoE-ontwerp met 671 miljard expertparameters en ongeveer 37 miljard actieve parameters per token, plus een contextvenster van 128K tokens. V3.1 bouwt voort op Base door het long-contexttrainingstraject in twee fasen te verlengen: 32K tot 630 miljard tokens en 128K tot 209 miljard, met UE8M0 FP8-microscaling voor gewichten en activaties.

DeepSeek meldt bovendien dat de V3.1-upgrade de totale corpusgrootte naar 14,8 biljoen tokens brengt en de thinking-pijplijn direct in het hoofdmodel integreert, zodat een aparte reasoning-release overbodig wordt.

Chattemplates en tooling

DeepSeek-V3.1 introduceert een uniforme chattemplate die tussen non-thinking- en thinking-prefixen kan schakelen en het nieuwe </think>-token in meer-turnsessies bewaart. Formaten voor tool-calling, code-agent en search-agent zijn in de officiële assets gedocumenteerd, zodat dezelfde gewichten gestructureerde agents aandrijven. Terminus behoudt deze templates, waardoor bestaande integraties compatibel blijven.

Benchmarkhoogtepunten

Ten opzichte van de build van augustus laat Terminus bescheiden maar duidelijke winst zien: MMLU-Pro stijgt van 84,8 naar 85,0, SWE Verified van 66,0 naar 68,4 en SWE-bench Multilingual van 54,5 naar 57,8. BrowseComp gaat omhoog van 30,0 naar 38,5 en Terminal-bench van 31,3 naar 36,7. Deze resultaten volgen uit de aangepaste decoder en agenttemplates in Terminus.

De eerdere V3.1-release bood al een sprong ten opzichte van DeepSeek V3, met betere toolgebruik, hogere successcores voor wiskunde en sterkere codegeneratie, terwijl het in thinking-modus gelijke tred hield met DeepSeek-R1-0528 en sneller antwoordde.

Taalbetrouwbaarheid en bekende issues

Terminus richt zich specifiek op consistente taaluitvoer, vermindert gemengde Chinees-Engelse antwoorden en corrigeert afwijkende tekens. Ook de meegeleverde templates voor Code Agent en Search Agent zijn verfijnd. DeepSeek wijst op een bekend probleem: de self_attn.o_proj-parameters voldoen nog niet volledig aan de UE8M0 FP8-schaal en worden in een toekomstige release gecorrigeerd.

Prijzen en toegang

De openbare API van DeepSeek levert de V3.1-familie met tijdgebaseerde tokenprijzen: 0,27 USD per miljoen inputtokens bij cache miss (0,07 USD bij cache hit) en 1,10 USD per miljoen outputtokens tijdens piekuren, met 50% korting buiten de piek. Omdat app, web en API al op Terminus draaien, draait de update vooral om het herbevestigen van prompts.

Voor self-hosting zijn MIT-gelicentieerde checkpoints in BF16-, FP8 (E4M3)- en FP32-precisie beschikbaar op Hugging Face, inclusief Base, V3.1 en Terminus. ModelScope levert mirrors voor China. Dankzij de gedeelde architectuur kun je Base verfijnen en vervangen door Terminus zodra strengere stabiliteitseisen gelden.

Implementatielijst

Bepaal de behoefte: puur MoE-beheer (Base), direct instructievolgend gedrag (V3.1) of extra focus op meertaligheid en agentstabiliteit (Terminus).
Voer evaluaties zoals SWE-bench Multilingual en BrowseComp opnieuw uit om het effect van de Terminus-decoder na te gaan.
Maak bij eigen FP8-kernels ruimte voor de komende correctie van de self_attn.o_proj-schaal.
Actualiseer API-budgetten op basis van de tijdgebonden prijsstructuur en de hogere agentensuccesratio van Terminus.

Door de verschillen in alignment, tooling en benchmarks tussen Base, V3.1 en Terminus helder te hebben, kunnen teams hun ideale startpunt en migratiepad richting productie bepalen.

DeepSeek V3.1 Terminus: uitgebreide analyse

Versielandschap

Architectuur en trainingsstack

Chattemplates en tooling

Benchmarkhoogtepunten

Taalbetrouwbaarheid en bekende issues

Prijzen en toegang

Implementatielijst

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Gerelateerde artikelen