DeepSeek V3.1 Terminus vs Kimi K2-0905: quale motore per gli agenti nel Q4 2025
Cronologia e obiettivi
DeepSeek ha pubblicato il patch Terminus il 22 settembre 2025, migliorando l’allineamento multilingue e aggiornando i template degli agenti senza richiedere migrazioni per web, app o API. Moonshot AI ha rilasciato Kimi K2-0905 il 5 settembre 2025 come refresh di settembre, puntando su coding agentico, qualità front-end e contesto esteso.
Architettura, contesto e distribuzione
Entrambi usano MoE, ma con priorità diverse:
| Dimensione | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|
| Parametri totali / attivi | 685B totali, ~37B attivi per token | 1T totali, 32B attivi per chiamata |
| Esperti per layer | 9 esperti | 8 su 384 esperti |
| Finestra di contesto | 128K token | 256K token |
| Modalità predefinite | Swift (bassa latenza) + Think (profondità) | Profilo unico ottimizzato per coding tool-based |
| Distribuzione | Pesi MIT via Hugging Face & ModelScope | Pesi su licenza MIT + API gestite |
Terminus mantiene Swift/Think e 128K token per bilanciare throughput e ragionamento. K2-0905 conserva lo stack 1T/32B e raddoppia il contesto a 256K, ideale per repository completi o briefing lunghi.
Benchmark e affidabilità degli agenti
Rispetto al build di agosto, Terminus migliora in tutte le suite orientate agli agenti:
| Benchmark (configurazione agente) | DeepSeek V3.1 (ago 2025) | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|---|
| SWE-bench Multilingual | 54,5 | 57,8 | 55,9 |
| SWE Verified | 66,0 | 68,4 | 69,2 |
| Terminal-bench | 31,3 | 36,7 | 44,5 |
| BrowseComp | 30,0 | 38,5 | n/a |
| LiveCodeBench | 56,4 | 60,0 (maggiore successo) | 61,0 |
I salti confermano la correzione di mixing linguistico e la revisione dei template agent. K2-0905 resta leader su Terminal-bench e SWE Verified, coerente con il posizionamento full-stack.
Prezzi (USD per milione di token, settembre 2025)
| Canale | Input (cache hit) | Input (cache miss) | Output |
|---|---|---|---|
| API DeepSeek (dal 5 settembre) | $0,07 | $0,27 | $1,10 |
| Novita serverless K2-0905 | — | $0,60 | $2,50 |
| Groq hosted K2-0905 | — | $1,00 | $3,00 |
| Gateway LangDB K2-0905 | — | $0,49 | $1,99 |
DeepSeek ha unificato le tariffe per Terminus, Swift e Think con l’aggiornamento del 5 settembre 2025. I prezzi di Kimi dipendono dal distributore: Novita ($0,60/$2,50), Groq ($1,00/$3,00) e LangDB ($0,49/$1,99).
Note su ecosistema e deployment
- Self-hosting: Terminus fornisce pesi BF16/FP8/FP32 sotto MIT, adatti a VPC o ambienti on-prem regolamentati.
- Servizi gestiti: K2-0905 via Groq, Novita o Kimi Cloud offre 60–200+ token/s con supporto operativo incluso.
- Robustezza multilingue: Terminus punta a ridurre il mix inglese/cinese nei prompt degli agenti.
- Qualità front-end: Moonshot evidenzia output React/Vue più estetici e coerenti.
Checklist decisionale
- Scenario principale: Terminus se servono qualità multilingue e controllo del deployment; K2-0905 per 256K di contesto o per automatizzare terminali complessi.
- Orchestrazione ibrida: Terminus per il planning (Swift/Think) e Kimi per esecuzioni lunghe di coding.
- Controllo costi: Confronta la tariffa fissa DeepSeek con le varianti Novita/Groq/LangDB; il delta può superare 4x.
- Governance: Terminus resta nella tua infrastruttura; Kimi gestito semplifica l’operatività ma richiede verifiche normative.
Una lettura combinata di timeline, architettura, benchmark e prezzi permette di inserire deepseek v3.1 terminus e Kimi K2-0905 nei punti esatti della catena di agenti per il Q4 2025.