Deep Dive
9 minutes min di lettura
DeepSeek Insights Team

DeepSeek V3.1 Terminus: analisi completa

DeepSeek V3.1 Terminus: analisi completa

DeepSeek V3.1 è stato rilasciato il 19 agosto 2025 come aggiornamento incrementale di DeepSeek V3. L’edizione Terminus conserva il backbone Mixture-of-Experts ma rafforza la fedeltà multilingue e l’affidabilità degli agenti. Questa guida mette a confronto i tre checkpoint rilevanti: DeepSeek-V3.1-Base, DeepSeek-V3.1 e DeepSeek-V3.1-Terminus.

Panorama delle versioni

VersionePosizionamentoCapacità principali
DeepSeek-V3.1-BaseCheckpoint fondazionale per ulteriore pretraining o adattamento di dominio671 miliardi di parametri totali, ~37 miliardi attivi per token, finestra di contesto da 128K, licenza MIT per tuning downstream.
DeepSeek-V3.1Modello conversazionale allineato alle istruzioni con modalità thinking e non thinkingAggiunge chat template, tool calling ottimizzato e maggiore efficienza di ragionamento rispetto a DeepSeek V3 mantenendo l’architettura di base.
DeepSeek-V3.1-TerminusPatch di affidabilità sopra V3.1Risolve la commistione di lingue, migliora i code/search agent e alza i benchmark senza cambiare la struttura principale.

Architettura e training

Tutti e tre i checkpoint condividono il design MoE di DeepSeek con 671 miliardi di parametri esperti e circa 37 miliardi attivi per token, affiancati da una finestra di contesto di 128K token. V3.1 estende il checkpoint Base con due fasi di long-context training: 32K fino a 630 miliardi di token e 128K fino a 209 miliardi, adottando il microscaling UE8M0 FP8 per pesi e attivazioni.

DeepSeek segnala inoltre che l’aggiornamento V3.1 porta il corpus complessivo a 14,8 trilioni di token e integra la pipeline di pensiero nel modello principale, evitando di passare a una release di ragionamento separata.

Chat template e tooling

DeepSeek-V3.1 introduce un template di chat unificato che commuta fra prefissi non thinking e thinking, preservando il nuovo token </think> nei dialoghi multi-turno. I formati di tool calling, code agent e search agent sono documentati negli asset ufficiali, così gli stessi pesi supportano agenti strutturati. Terminus mantiene intatti questi template, garantendo la compatibilità delle integrazioni esistenti.

Risultati benchmark

Rispetto alla build di agosto, Terminus registra miglioramenti graduali: MMLU-Pro passa da 84,8 a 85,0, SWE Verified da 66,0 a 68,4 e SWE-bench Multilingual da 54,5 a 57,8. BrowseComp sale da 30,0 a 38,5 e Terminal-bench da 31,3 a 36,7. I progressi derivano dalle regolazioni di decodifica e delle template agent introdotte da Terminus.

Il precedente rilascio V3.1 aveva già superato DeepSeek V3 con tool use più solido, tassi di successo matematici più alti e migliore generazione di codice, mantenendo la parità con DeepSeek-R1-0528 in modalità thinking ma con risposte più rapide.

Affidabilità linguistica e problemi noti

Terminus mira a una maggiore coerenza linguistica, riducendo output misti cinese-inglese e caratteri anomali, oltre a rifinire i template di Code Agent e Search Agent. DeepSeek segnala un problema noto: i parametri self_attn.o_proj non rispettano ancora pienamente la scala UE8M0 FP8 e saranno corretti in un aggiornamento successivo.

Prezzi e accesso

L’API pubblica di DeepSeek offre la famiglia V3.1 con tariffazione a fasce orarie: 0,27 USD per milione di token in input in caso di cache miss (0,07 USD in cache hit) e 1,10 USD per milione di token in output nelle ore di picco, con sconti del 50% nelle fasce non di punta. Poiché app, web e API già eseguono Terminus, l’aggiornamento si riduce per lo più alla validazione dei prompt.

Per il self-hosting sono disponibili su Hugging Face checkpoint con licenza MIT in BF16, FP8 (E4M3) e FP32, che coprono Base, V3.1 e Terminus; ModelScope offre mirror per la Cina continentale. Grazie all’architettura condivisa puoi perfezionare Base e passare a Terminus quando servono requisiti di stabilità superiori.

Checklist di adozione

  1. Definisci la necessità: controllo MoE grezzo (Base), allineamento immediato alle istruzioni (V3.1) oppure stabilità multilingue e degli agenti potenziata (Terminus).
  2. Riesegui suite di valutazione, in particolare SWE-bench Multilingual e BrowseComp, per verificare l’impatto delle modifiche di decodifica di Terminus.
  3. Se utilizzi kernel FP8 personalizzati, tieni conto della futura correzione della scala self_attn.o_proj.
  4. Aggiorna i modelli di budget API in base alla tariffazione per fascia oraria e ai migliori tassi di successo degli agenti con Terminus.

Una visione chiara delle differenze tra Base, V3.1 e Terminus in termini di allineamento, tooling e benchmark permette ai team di scegliere il punto di partenza e il percorso di rollout più adatti alla produzione.

Articoli correlati

Moonshot AI ha ufficialmente rilasciato Kimi K2.6, portando il ramo Code Preview allo stato di modello generalmente disponibile progettato per sessioni di coding autonomo di 12 ore, sciami di 300 agenti e generazione full-stack. Cosa è cambiato, cosa significa e come metterlo al lavoro.
La domanda interessante su Kimi K2.6 non riguarda cosa fa — ma per che tipo di modello è chiaramente stato costruito. Trattate i run da 12 ore, gli sciami di 300 agenti e il compressore di contesto come infrastruttura portante, e la forma di K3 diventa visibile.
Il 13 aprile 2026, Moonshot AI ha confermato ufficialmente che Kimi K2.6 Code Preview è entrato in fase beta. Costruito su un'architettura MoE da un trilione di parametri, questo modello di nuova generazione offre miglioramenti significativi nella generazione di codice e nelle capacità degli agenti.