DeepSeek V3.1 Terminus: analisi completa
DeepSeek V3.1 Terminus: analisi completa
DeepSeek V3.1 è stato rilasciato il 19 agosto 2025 come aggiornamento incrementale di DeepSeek V3. L’edizione Terminus conserva il backbone Mixture-of-Experts ma rafforza la fedeltà multilingue e l’affidabilità degli agenti. Questa guida mette a confronto i tre checkpoint rilevanti: DeepSeek-V3.1-Base, DeepSeek-V3.1 e DeepSeek-V3.1-Terminus.
Panorama delle versioni
| Versione | Posizionamento | Capacità principali |
|---|---|---|
| DeepSeek-V3.1-Base | Checkpoint fondazionale per ulteriore pretraining o adattamento di dominio | 671 miliardi di parametri totali, ~37 miliardi attivi per token, finestra di contesto da 128K, licenza MIT per tuning downstream. |
| DeepSeek-V3.1 | Modello conversazionale allineato alle istruzioni con modalità thinking e non thinking | Aggiunge chat template, tool calling ottimizzato e maggiore efficienza di ragionamento rispetto a DeepSeek V3 mantenendo l’architettura di base. |
| DeepSeek-V3.1-Terminus | Patch di affidabilità sopra V3.1 | Risolve la commistione di lingue, migliora i code/search agent e alza i benchmark senza cambiare la struttura principale. |
Architettura e training
Tutti e tre i checkpoint condividono il design MoE di DeepSeek con 671 miliardi di parametri esperti e circa 37 miliardi attivi per token, affiancati da una finestra di contesto di 128K token. V3.1 estende il checkpoint Base con due fasi di long-context training: 32K fino a 630 miliardi di token e 128K fino a 209 miliardi, adottando il microscaling UE8M0 FP8 per pesi e attivazioni.
DeepSeek segnala inoltre che l’aggiornamento V3.1 porta il corpus complessivo a 14,8 trilioni di token e integra la pipeline di pensiero nel modello principale, evitando di passare a una release di ragionamento separata.
Chat template e tooling
DeepSeek-V3.1 introduce un template di chat unificato che commuta fra prefissi non thinking e thinking, preservando il nuovo token </think> nei dialoghi multi-turno. I formati di tool calling, code agent e search agent sono documentati negli asset ufficiali, così gli stessi pesi supportano agenti strutturati. Terminus mantiene intatti questi template, garantendo la compatibilità delle integrazioni esistenti.
Risultati benchmark
Rispetto alla build di agosto, Terminus registra miglioramenti graduali: MMLU-Pro passa da 84,8 a 85,0, SWE Verified da 66,0 a 68,4 e SWE-bench Multilingual da 54,5 a 57,8. BrowseComp sale da 30,0 a 38,5 e Terminal-bench da 31,3 a 36,7. I progressi derivano dalle regolazioni di decodifica e delle template agent introdotte da Terminus.
Il precedente rilascio V3.1 aveva già superato DeepSeek V3 con tool use più solido, tassi di successo matematici più alti e migliore generazione di codice, mantenendo la parità con DeepSeek-R1-0528 in modalità thinking ma con risposte più rapide.
Affidabilità linguistica e problemi noti
Terminus mira a una maggiore coerenza linguistica, riducendo output misti cinese-inglese e caratteri anomali, oltre a rifinire i template di Code Agent e Search Agent. DeepSeek segnala un problema noto: i parametri self_attn.o_proj non rispettano ancora pienamente la scala UE8M0 FP8 e saranno corretti in un aggiornamento successivo.
Prezzi e accesso
L’API pubblica di DeepSeek offre la famiglia V3.1 con tariffazione a fasce orarie: 0,27 USD per milione di token in input in caso di cache miss (0,07 USD in cache hit) e 1,10 USD per milione di token in output nelle ore di picco, con sconti del 50% nelle fasce non di punta. Poiché app, web e API già eseguono Terminus, l’aggiornamento si riduce per lo più alla validazione dei prompt.
Per il self-hosting sono disponibili su Hugging Face checkpoint con licenza MIT in BF16, FP8 (E4M3) e FP32, che coprono Base, V3.1 e Terminus; ModelScope offre mirror per la Cina continentale. Grazie all’architettura condivisa puoi perfezionare Base e passare a Terminus quando servono requisiti di stabilità superiori.
Checklist di adozione
- Definisci la necessità: controllo MoE grezzo (Base), allineamento immediato alle istruzioni (V3.1) oppure stabilità multilingue e degli agenti potenziata (Terminus).
- Riesegui suite di valutazione, in particolare SWE-bench Multilingual e BrowseComp, per verificare l’impatto delle modifiche di decodifica di Terminus.
- Se utilizzi kernel FP8 personalizzati, tieni conto della futura correzione della scala
self_attn.o_proj. - Aggiorna i modelli di budget API in base alla tariffazione per fascia oraria e ai migliori tassi di successo degli agenti con Terminus.
Una visione chiara delle differenze tra Base, V3.1 e Terminus in termini di allineamento, tooling e benchmark permette ai team di scegliere il punto di partenza e il percorso di rollout più adatti alla produzione.