DeepSeek V3.1 Terminus: heltäckande analys
DeepSeek V3.1 Terminus: heltäckande analys
DeepSeek V3.1 lanserades den 19 augusti 2025 som en stegvis uppgradering av DeepSeek V3. Terminus-versionen behåller samma Mixture-of-Experts-backbone men skärper den flerspråkiga konsistensen och agentstabiliteten. Den här guiden jämför tre huvudsakliga checkpoints: DeepSeek-V3.1-Base, DeepSeek-V3.1 och DeepSeek-V3.1-Terminus.
Versionsöversikt
| Version | Positionering | Viktigaste egenskaper |
|---|---|---|
| DeepSeek-V3.1-Base | Grundläggande checkpoint för extra pretraining eller domänanpassning | 671 miljarder parametrar totalt, cirka 37 miljarder aktiva per token, 128K kontextfönster, MIT-licens för vidare tuning. |
| DeepSeek-V3.1 | Instruktionsanpassad chatmodell med thinking- och non-thinking-lägen | Läggar till chatmallar, optimerad verktygsanrop och högre resoneringseffektivitet jämfört med DeepSeek V3 utan att ändra ryggraden. |
| DeepSeek-V3.1-Terminus | Pålitlighetspatch ovanpå V3.1 | Löser språkblandning, förbättrar kod- och sökagenter och höjer benchmarks utan att ändra strukturen. |
Arkitektur och träningsstack
Samtliga checkpoints använder DeepSeek MoE-designen med 671 miljarder expertparametrar och ungefär 37 miljarder aktiva parametrar per token samt ett kontextfönster på 128K tokens. V3.1 bygger vidare på Base genom att förlänga long-context-träningen i två faser: 32K upp till 630 miljarder tokens och 128K upp till 209 miljarder tokens, och inför UE8M0 FP8-microscaling för vikter och aktiveringar.
DeepSeek rapporterar även att V3.1-uppgraderingen expanderar korpuset till 14,8 biljoner tokens och integrerar thinking-pipelinen direkt i huvudmodellen så att ingen separat resonemangsrelease behövs.
Chatmallar och tooling
DeepSeek-V3.1 introducerar en enhetlig chatmall som kan växla mellan non-thinking- och thinking-prefix och bevarar det nya </think>-tokenet över flera turer. Format för verktygsanrop, Code Agent och Search Agent dokumenteras i de officiella resurserna, vilket gör att samma vikter kan driva strukturerade agenter. Terminus behåller dessa mallar, så befintliga integrationer förblir kompatibla.
Benchmarkhöjdpunkter
Jämfört med augusti-builden ger Terminus successiva förbättringar: MMLU-Pro går från 84,8 till 85,0, SWE Verified från 66,0 till 68,4 och SWE-bench Multilingual från 54,5 till 57,8. BrowseComp stiger från 30,0 till 38,5 och Terminal-bench från 31,3 till 36,7. Förbättringarna kommer av uppdaterade decoders och agentmallar i Terminus.
Den tidigare V3.1-versionen gav redan bättre verktygsanvändning, högre matematikresultat och starkare kodgenerering jämfört med DeepSeek V3, med bibehållen likvärdig thinking-prestanda mot DeepSeek-R1-0528 men snabbare svarstid.
Språkreliabilitet och kända problem
Terminus fokuserar på stabilt språkval, minskar blandade kinesiska–engelska svar och tar bort avvikande tecken, och finslipar de medföljande Code Agent- och Search Agent-mallarna. DeepSeek varnar samtidigt för ett känt problem: self_attn.o_proj-parametrarna följer ännu inte helt UE8M0 FP8-skalan och kommer att rättas i en kommande patch.
Prissättning och åtkomst
DeepSeek:s offentliga API levererar V3.1-familjen med tidsbaserad tokenprissättning: 0,27 USD per miljon inputtokens vid cache miss (0,07 USD vid cache hit) och 1,10 USD per miljon outputtokens under högtrafik, med halva priset i lågtrafik. Eftersom app, webb och API redan kör Terminus handlar uppgraderingen främst om att validera prompts på nytt.
För egen drift finns MIT-licensierade checkpoints i BF16-, FP8 (E4M3)- och FP32-precision på Hugging Face, inklusive Base, V3.1 och Terminus; ModelScope tillhandahåller speglar för Kina. Den delade arkitekturen gör det möjligt att finjustera Base och sedan byta till Terminus när kraven på stabilitet ökar.
Implementeringslista
- Fastställ behov: rå MoE-kontroll (Base), färdig instruktionsföljning (V3.1) eller förstärkt flerspråkig och agentrelaterad stabilitet (Terminus).
- Kör om utvärderingssviter som SWE-bench Multilingual och BrowseComp för att mäta effekten av Terminus-dekodern.
- Planera för den kommande korrigeringen av
self_attn.o_projom du använder egna FP8-kärnor. - Uppdatera API-budgetar enligt tidsbaserad prissättning och Terminus förbättrade agenresultat.
Genom att förstå hur Base, V3.1 och Terminus skiljer sig i alignment, tooling och benchmarks kan team välja rätt startpunkt och införa modellen i produktion med kontroll.