Deep Dive
9 minutes min läsning
DeepSeek Insights Team

DeepSeek V3.1 Terminus: heltäckande analys

DeepSeek V3.1 Terminus: heltäckande analys

DeepSeek V3.1 lanserades den 19 augusti 2025 som en stegvis uppgradering av DeepSeek V3. Terminus-versionen behåller samma Mixture-of-Experts-backbone men skärper den flerspråkiga konsistensen och agentstabiliteten. Den här guiden jämför tre huvudsakliga checkpoints: DeepSeek-V3.1-Base, DeepSeek-V3.1 och DeepSeek-V3.1-Terminus.

Versionsöversikt

VersionPositioneringViktigaste egenskaper
DeepSeek-V3.1-BaseGrundläggande checkpoint för extra pretraining eller domänanpassning671 miljarder parametrar totalt, cirka 37 miljarder aktiva per token, 128K kontextfönster, MIT-licens för vidare tuning.
DeepSeek-V3.1Instruktionsanpassad chatmodell med thinking- och non-thinking-lägenLäggar till chatmallar, optimerad verktygsanrop och högre resonerings­effektivitet jämfört med DeepSeek V3 utan att ändra ryggraden.
DeepSeek-V3.1-TerminusPålitlighets­patch ovanpå V3.1Löser språkblandning, förbättrar kod- och sökagenter och höjer benchmarks utan att ändra strukturen.

Arkitektur och träningsstack

Samtliga checkpoints använder DeepSeek MoE-designen med 671 miljarder expertparametrar och ungefär 37 miljarder aktiva parametrar per token samt ett kontextfönster på 128K tokens. V3.1 bygger vidare på Base genom att förlänga long-context-träningen i två faser: 32K upp till 630 miljarder tokens och 128K upp till 209 miljarder tokens, och inför UE8M0 FP8-microscaling för vikter och aktiveringar.

DeepSeek rapporterar även att V3.1-uppgraderingen expanderar korpuset till 14,8 biljoner tokens och integrerar thinking-pipelinen direkt i huvudmodellen så att ingen separat resonemangsrelease behövs.

Chatmallar och tooling

DeepSeek-V3.1 introducerar en enhetlig chatmall som kan växla mellan non-thinking- och thinking-prefix och bevarar det nya </think>-tokenet över flera turer. Format för verktygsanrop, Code Agent och Search Agent dokumenteras i de officiella resurserna, vilket gör att samma vikter kan driva strukturerade agenter. Terminus behåller dessa mallar, så befintliga integrationer förblir kompatibla.

Benchmarkhöjdpunkter

Jämfört med augusti-builden ger Terminus successiva förbättringar: MMLU-Pro går från 84,8 till 85,0, SWE Verified från 66,0 till 68,4 och SWE-bench Multilingual från 54,5 till 57,8. BrowseComp stiger från 30,0 till 38,5 och Terminal-bench från 31,3 till 36,7. Förbättringarna kommer av uppdaterade decoders och agentmallar i Terminus.

Den tidigare V3.1-versionen gav redan bättre verktygsanvändning, högre matematikresultat och starkare kodgenerering jämfört med DeepSeek V3, med bibehållen likvärdig thinking-prestanda mot DeepSeek-R1-0528 men snabbare svarstid.

Språkreliabilitet och kända problem

Terminus fokuserar på stabilt språkval, minskar blandade kinesiska–engelska svar och tar bort avvikande tecken, och finslipar de medföljande Code Agent- och Search Agent-mallarna. DeepSeek varnar samtidigt för ett känt problem: self_attn.o_proj-parametrarna följer ännu inte helt UE8M0 FP8-skalan och kommer att rättas i en kommande patch.

Prissättning och åtkomst

DeepSeek:s offentliga API levererar V3.1-familjen med tidsbaserad tokenprissättning: 0,27 USD per miljon inputtokens vid cache miss (0,07 USD vid cache hit) och 1,10 USD per miljon outputtokens under högtrafik, med halva priset i lågtrafik. Eftersom app, webb och API redan kör Terminus handlar uppgraderingen främst om att validera prompts på nytt.

För egen drift finns MIT-licensierade checkpoints i BF16-, FP8 (E4M3)- och FP32-precision på Hugging Face, inklusive Base, V3.1 och Terminus; ModelScope tillhandahåller speglar för Kina. Den delade arkitekturen gör det möjligt att finjustera Base och sedan byta till Terminus när kraven på stabilitet ökar.

Implementeringslista

  1. Fastställ behov: rå MoE-kontroll (Base), färdig instruk­tions­följning (V3.1) eller förstärkt flerspråkig och agentrelaterad stabilitet (Terminus).
  2. Kör om utvärderingssviter som SWE-bench Multilingual och BrowseComp för att mäta effekten av Terminus-dekodern.
  3. Planera för den kommande korrigeringen av self_attn.o_proj om du använder egna FP8-kärnor.
  4. Uppdatera API-budgetar enligt tidsbaserad prissättning och Terminus förbättrade agenresultat.

Genom att förstå hur Base, V3.1 och Terminus skiljer sig i alignment, tooling och benchmarks kan team välja rätt startpunkt och införa modellen i produktion med kontroll.

Relaterade artiklar

Moonshot AI har officiellt levererat Kimi K2.6 och fört Code Preview-grenen till en allmänt tillgänglig modell byggd för 12-timmars autonoma kodningssessioner, svärmar med 300 agenter och full-stack-generering. Vad som förändrats, vad det innebär och hur du sätter det i arbete.
Den intressanta frågan om Kimi K2.6 är inte vad den gör — utan för vilken typ av modell den uppenbarligen byggs för att vara värd. Betrakta 12-timmarskörningarna, svärmar med 300 agenter och kontextkompressorn som bärande infrastruktur, och formen på K3 blir synlig.
Den 13 april 2026 bekräftade Moonshot AI officiellt att Kimi K2.6 Code Preview har gått in i betatestfasen. Byggd på en MoE-arkitektur med en biljon parametrar erbjuder denna nästa generations modell betydande förbättringar inom kodgenerering och agentkapacitet.