Deep Dive
9 minutes min lezen
DeepSeek Insights Team

DeepSeek V3.1 Terminus: uitgebreide analyse

DeepSeek V3.1 Terminus: uitgebreide analyse

DeepSeek V3.1 verscheen op 19 augustus 2025 als een incrementele upgrade van DeepSeek V3. De Terminus-editie behoudt dezelfde Mixture-of-Experts-backbone, maar vergroot de meertalige nauwkeurigheid en de betrouwbaarheid van agents. Deze gids vergelijkt de drie belangrijkste checkpoints: DeepSeek-V3.1-Base, DeepSeek-V3.1 en DeepSeek-V3.1-Terminus.

Versielandschap

VersiePositioneringBelangrijkste mogelijkheden
DeepSeek-V3.1-BaseFoundation-checkpoint voor extra pretraining of domeinaanpassing671 miljard parameters totaal, circa 37 miljard actief per token, 128K contextvenster, MIT-licentie voor downstream-tuning.
DeepSeek-V3.1Instructie-afgestemd chatmodel met thinking- en non-thinking-modusVoegt chattemplates, geoptimaliseerde tool-calls en hogere redeneerefficiëntie toe tegenover DeepSeek V3, met behoud van de backbone.
DeepSeek-V3.1-TerminusBetrouwbaarheidsupgrade bovenop V3.1Pakt taalvermenging aan, verbetert code- en zoekagents en verhoogt benchmarks zonder de structuur te wijzigen.

Architectuur en trainingsstack

Alle drie de checkpoints delen het DeepSeek-MoE-ontwerp met 671 miljard expertparameters en ongeveer 37 miljard actieve parameters per token, plus een contextvenster van 128K tokens. V3.1 bouwt voort op Base door het long-contexttrainingstraject in twee fasen te verlengen: 32K tot 630 miljard tokens en 128K tot 209 miljard, met UE8M0 FP8-microscaling voor gewichten en activaties.

DeepSeek meldt bovendien dat de V3.1-upgrade de totale corpusgrootte naar 14,8 biljoen tokens brengt en de thinking-pijplijn direct in het hoofdmodel integreert, zodat een aparte reasoning-release overbodig wordt.

Chattemplates en tooling

DeepSeek-V3.1 introduceert een uniforme chattemplate die tussen non-thinking- en thinking-prefixen kan schakelen en het nieuwe </think>-token in meer-turnsessies bewaart. Formaten voor tool-calling, code-agent en search-agent zijn in de officiële assets gedocumenteerd, zodat dezelfde gewichten gestructureerde agents aandrijven. Terminus behoudt deze templates, waardoor bestaande integraties compatibel blijven.

Benchmarkhoogtepunten

Ten opzichte van de build van augustus laat Terminus bescheiden maar duidelijke winst zien: MMLU-Pro stijgt van 84,8 naar 85,0, SWE Verified van 66,0 naar 68,4 en SWE-bench Multilingual van 54,5 naar 57,8. BrowseComp gaat omhoog van 30,0 naar 38,5 en Terminal-bench van 31,3 naar 36,7. Deze resultaten volgen uit de aangepaste decoder en agenttemplates in Terminus.

De eerdere V3.1-release bood al een sprong ten opzichte van DeepSeek V3, met betere toolgebruik, hogere successcores voor wiskunde en sterkere codegeneratie, terwijl het in thinking-modus gelijke tred hield met DeepSeek-R1-0528 en sneller antwoordde.

Taalbetrouwbaarheid en bekende issues

Terminus richt zich specifiek op consistente taaluitvoer, vermindert gemengde Chinees-Engelse antwoorden en corrigeert afwijkende tekens. Ook de meegeleverde templates voor Code Agent en Search Agent zijn verfijnd. DeepSeek wijst op een bekend probleem: de self_attn.o_proj-parameters voldoen nog niet volledig aan de UE8M0 FP8-schaal en worden in een toekomstige release gecorrigeerd.

Prijzen en toegang

De openbare API van DeepSeek levert de V3.1-familie met tijdgebaseerde tokenprijzen: 0,27 USD per miljoen inputtokens bij cache miss (0,07 USD bij cache hit) en 1,10 USD per miljoen outputtokens tijdens piekuren, met 50% korting buiten de piek. Omdat app, web en API al op Terminus draaien, draait de update vooral om het herbevestigen van prompts.

Voor self-hosting zijn MIT-gelicentieerde checkpoints in BF16-, FP8 (E4M3)- en FP32-precisie beschikbaar op Hugging Face, inclusief Base, V3.1 en Terminus. ModelScope levert mirrors voor China. Dankzij de gedeelde architectuur kun je Base verfijnen en vervangen door Terminus zodra strengere stabiliteitseisen gelden.

Implementatielijst

  1. Bepaal de behoefte: puur MoE-beheer (Base), direct instructievolgend gedrag (V3.1) of extra focus op meertaligheid en agentstabiliteit (Terminus).
  2. Voer evaluaties zoals SWE-bench Multilingual en BrowseComp opnieuw uit om het effect van de Terminus-decoder na te gaan.
  3. Maak bij eigen FP8-kernels ruimte voor de komende correctie van de self_attn.o_proj-schaal.
  4. Actualiseer API-budgetten op basis van de tijdgebonden prijsstructuur en de hogere agentensuccesratio van Terminus.

Door de verschillen in alignment, tooling en benchmarks tussen Base, V3.1 en Terminus helder te hebben, kunnen teams hun ideale startpunt en migratiepad richting productie bepalen.

Gerelateerde artikelen

Op 13 april 2026 bevestigde Moonshot AI officieel dat Kimi K2.6 Code Preview de bètatestfase is ingegaan. Gebouwd op een MoE-architectuur met een biljoen parameters, biedt dit model van de volgende generatie aanzienlijke verbeteringen in codegeneratie en agentmogelijkheden.
OpenClaw kondigt gratis toegang aan tot het nieuw uitgebrachte Kimi k2.5-model van Moonshot AI voor alle gebruikers, waardoor deze combinatie de meest opmerkelijke tech-trend van begin 2026 wordt.
Kimi k2.5 hanteert een native multimodale architectuur, wat betekent dat het niet alleen beelden begrijpt, maar ook de stroom van tijd en interactielogica in video's waarneemt. Dit artikel gaat dieper in op de kernfunctie 'Visual Coding'.