DeepSeek V3.1 Terminus: agenti multilingue pronti per la produzione
DeepSeek V3.1 Terminus: novità per i builder
Panorama del rilascio
DeepSeek V3.1 Terminus è arrivato il 22 settembre 2025 come affinamento mirato della versione del 21 agosto. DeepSeek ha già aggiornato app, web e API a Terminus, perciò i progetti in produzione ricevono subito i miglioramenti senza migrazioni aggiuntive.
Progressi multilingue
Questa release punta a rendere più solida l'esperienza multilingue. Terminus mantiene la finestra di contesto da 128K token e introduce ottimizzazioni di decodifica che riducono le allucinazioni quando la conversazione cambia idioma. Per i team che alternano requisiti in inglese ed esecuzione localizzata, i prompt richiedono meno ritocchi.
Prestazioni degli agenti
Le metriche confermano il salto: Terminus totalizza 57,8 su SWE-bench Multilingual (in precedenza 54,5) e 62,9 su MixInstruct 2/8-shot (in precedenza 59,2). Il modello raggiunge inoltre 68,4 su SWE Verified e 91,2 su HumanEval, segno di una capacità di ragionamento più ampia per orchestrare workflow agent più lunghi.
Stack pronto per la produzione
L'architettura resta un Mixture-of-Experts da 685B parametri con circa 37B attivi per token. Restano disponibili i profili di inferenza Swift (rapido) e Think (approfondito), insieme agli strumenti integrati per gestire dataset e vettori che unificano retrieval e fine-tuning. L'upgrade si inserisce nelle pipeline esistenti senza interventi strutturali.
Distribuzione e accesso
I checkpoint open source in formati BF16, FP8 (E4M3) e FP32 sono pubblicati con licenza MIT su Hugging Face, con mirror su ModelScope per i carichi in Cina continentale. In questo modo è più semplice allineare precisione e costi con gli acceleratori disponibili.
Azioni consigliate
- Rivalutare i budget API alla luce dei prezzi di Terminus, Swift e Think attivi dal 5 settembre 2025.
- Ripetere i test di QA multilingue e di aderenza alle istruzioni per validare i nuovi parametri di decodifica.
- Scaricare gli ultimi checkpoint Terminus e pianificare sessioni di fine-tuning o valutazione prima del rollout esteso.