DeepSeek V3.1 lanserades den 19 augusti 2025 som en stegvis uppgradering av DeepSeek V3. Terminus-versionen behåller samma Mixture-of-Experts-backbone men skärper den flerspråkiga konsistensen och agentstabiliteten. Den här guiden jämför tre huvudsakliga checkpoints: DeepSeek-V3.1-Base, DeepSeek-V3.1 och DeepSeek-V3.1-Terminus.

Versionsöversikt

Version	Positionering	Viktigaste egenskaper
DeepSeek-V3.1-Base	Grundläggande checkpoint för extra pretraining eller domänanpassning	671 miljarder parametrar totalt, cirka 37 miljarder aktiva per token, 128K kontextfönster, MIT-licens för vidare tuning.
DeepSeek-V3.1	Instruktionsanpassad chatmodell med thinking- och non-thinking-lägen	Läggar till chatmallar, optimerad verktygsanrop och högre resoneringseffektivitet jämfört med DeepSeek V3 utan att ändra ryggraden.
DeepSeek-V3.1-Terminus	Pålitlighetspatch ovanpå V3.1	Löser språkblandning, förbättrar kod- och sökagenter och höjer benchmarks utan att ändra strukturen.

Arkitektur och träningsstack

Samtliga checkpoints använder DeepSeek MoE-designen med 671 miljarder expertparametrar och ungefär 37 miljarder aktiva parametrar per token samt ett kontextfönster på 128K tokens. V3.1 bygger vidare på Base genom att förlänga long-context-träningen i två faser: 32K upp till 630 miljarder tokens och 128K upp till 209 miljarder tokens, och inför UE8M0 FP8-microscaling för vikter och aktiveringar.

DeepSeek rapporterar även att V3.1-uppgraderingen expanderar korpuset till 14,8 biljoner tokens och integrerar thinking-pipelinen direkt i huvudmodellen så att ingen separat resonemangsrelease behövs.

Chatmallar och tooling

DeepSeek-V3.1 introducerar en enhetlig chatmall som kan växla mellan non-thinking- och thinking-prefix och bevarar det nya </think>-tokenet över flera turer. Format för verktygsanrop, Code Agent och Search Agent dokumenteras i de officiella resurserna, vilket gör att samma vikter kan driva strukturerade agenter. Terminus behåller dessa mallar, så befintliga integrationer förblir kompatibla.

Benchmarkhöjdpunkter

Jämfört med augusti-builden ger Terminus successiva förbättringar: MMLU-Pro går från 84,8 till 85,0, SWE Verified från 66,0 till 68,4 och SWE-bench Multilingual från 54,5 till 57,8. BrowseComp stiger från 30,0 till 38,5 och Terminal-bench från 31,3 till 36,7. Förbättringarna kommer av uppdaterade decoders och agentmallar i Terminus.

Den tidigare V3.1-versionen gav redan bättre verktygsanvändning, högre matematikresultat och starkare kodgenerering jämfört med DeepSeek V3, med bibehållen likvärdig thinking-prestanda mot DeepSeek-R1-0528 men snabbare svarstid.

Språkreliabilitet och kända problem

Terminus fokuserar på stabilt språkval, minskar blandade kinesiska–engelska svar och tar bort avvikande tecken, och finslipar de medföljande Code Agent- och Search Agent-mallarna. DeepSeek varnar samtidigt för ett känt problem: self_attn.o_proj-parametrarna följer ännu inte helt UE8M0 FP8-skalan och kommer att rättas i en kommande patch.

Prissättning och åtkomst

DeepSeek:s offentliga API levererar V3.1-familjen med tidsbaserad tokenprissättning: 0,27 USD per miljon inputtokens vid cache miss (0,07 USD vid cache hit) och 1,10 USD per miljon outputtokens under högtrafik, med halva priset i lågtrafik. Eftersom app, webb och API redan kör Terminus handlar uppgraderingen främst om att validera prompts på nytt.

För egen drift finns MIT-licensierade checkpoints i BF16-, FP8 (E4M3)- och FP32-precision på Hugging Face, inklusive Base, V3.1 och Terminus; ModelScope tillhandahåller speglar för Kina. Den delade arkitekturen gör det möjligt att finjustera Base och sedan byta till Terminus när kraven på stabilitet ökar.

Implementeringslista

Fastställ behov: rå MoE-kontroll (Base), färdig instruktionsföljning (V3.1) eller förstärkt flerspråkig och agentrelaterad stabilitet (Terminus).
Kör om utvärderingssviter som SWE-bench Multilingual och BrowseComp för att mäta effekten av Terminus-dekodern.
Planera för den kommande korrigeringen av self_attn.o_proj om du använder egna FP8-kärnor.
Uppdatera API-budgetar enligt tidsbaserad prissättning och Terminus förbättrade agenresultat.

Genom att förstå hur Base, V3.1 och Terminus skiljer sig i alignment, tooling och benchmarks kan team välja rätt startpunkt och införa modellen i produktion med kontroll.

DeepSeek V3.1 Terminus: heltäckande analys

Versionsöversikt

Arkitektur och träningsstack

Chatmallar och tooling

Benchmarkhöjdpunkter

Språkreliabilitet och kända problem

Prissättning och åtkomst

Implementeringslista

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Relaterade artiklar