Kimi K2.6 ufficialmente rilasciato: l'era del coding agentivo entra in produzione
Dalla preview alla disponibilità generale in otto giorni
Il 13 aprile 2026, Moonshot AI ha confermato silenziosamente via e-mail che i beta tester stavano già utilizzando Kimi K2.6 Code Preview. Otto giorni dopo, l'azienda ha rimosso l'etichetta "Preview" e ha rilasciato Kimi K2.6 come modello generalmente disponibile su Kimi.com, l'app Kimi, l'API ufficiale e la Kimi Code CLI.
Questa è una delle transizioni preview-to-GA più rapide nella storia della serie K2 — un segnale che il livello di qualità interno era già stato raggiunto e che le valutazioni dei partner (Vercel, Factory.ai, CodeBuddy) erano durate abbastanza a lungo da validare il rilascio. Per i team che hanno seguito la roadmap K2 dal debutto open-source nel luglio 2025, K2.6 è la versione in cui il "coding agentivo" smette di essere una demo e diventa infrastruttura.
Cosa è effettivamente cambiato rispetto a K2.5
Il titolo non è un singolo punto di benchmark — è durata, ampiezza e coordinazione. K2.5 riusciva a mantenere coerenza su un'attività di coding per alcune centinaia di passi. K2.6 è progettato per tenerla insieme per dodici ore e quattromila passi coordinati, con fino a 300 sotto-agenti in un singolo sciame.
Delta segnalati dai partner rispetto a K2.5:
| Partner | Miglioramento segnalato |
|---|---|
| CodeBuddy | +12% di accuratezza nella generazione di codice, +18% di stabilità su contesti lunghi |
| Vercel | >50% di miglioramento sul benchmark Next.js interno |
| Factory.ai | +15% su entrambi i benchmark valutati |
Questi sono numeri indipendenti di terze parti, non le curve di marketing di Moonshot — ecco perché contano.
Highlights dei benchmark pubblicati
- Terminal-Bench 2.0: 66,7%
- SWE-Bench Pro: 58,6%
- MathVision (con utilizzo di strumenti Python): 93,2%
SWE-Bench Pro è una versione più difficile di SWE-Bench che filtra i problemi più semplici del tipo "correzione su un singolo file" — quindi 58,6% non è direttamente comparabile al 76,8% che K2.5 ha riportato su SWE-Bench Verified. Considerare Pro come il nuovo tetto onesto.
L'architettura che rende possibili le esecuzioni di 12 ore
K2.6 mantiene la colonna vertebrale MoE da un trilione di parametri (1T totali / 32B attivi / 384 esperti con 8 attivati per token, attenzione MLA, SwiGLU, training stabilizzato da MuonClip) che la serie K2 porta avanti dal luglio 2025. La novità è il livello di esecuzione che la circonda:
- Finestra di contesto portata a 262.144 token. In aumento rispetto ai 256K di K2.5 Code Preview, abbastanza da contenere un monorepo di medie dimensioni più il suo output di test più il blocco note dell'agente senza deriva indotta da troncatura.
- Compressione automatica del contesto. Il modello riassume ed elimina la propria cronologia quando si avvicina al limite della finestra, in modo che una sessione di 12 ore non collassi in un ricordo frammentato alla nona ora.
- Orchestrazione dello sciame di agenti. Primitive native per generare, pianificare e riconciliare fino a 300 sotto-agenti. È questa capacità che rende significativo il numero di 4.000 passi coordinati — un singolo agente non può praticamente eseguire 4.000 chiamate di strumenti in un piano coerente, ma una topologia supervisore-più-lavoratori può farlo.
- Autonomia proattiva. K2.6 è ottimizzato per operare 24/7 su una coda di attività piuttosto che aspettare un turno umano. L'ottimizzazione rilevante non è il throughput grezzo; è la capacità di riconoscere "sono bloccato" e ripianificare o escalare invece di allucinare progressi.
Tre casi d'uso che Moonshot ha effettivamente consegnato
Il team Kimi ha pubblicato tre esecuzioni di riferimento con il rilascio. Vale la pena leggerle come prove di esistenza, non solo come marketing.
1. Ottimizzazione dell'inferenza in Zig
K2.6 ha deployato Qwen3.5-0.8B localmente, in Zig, raggiungendo ~193 token/sec — circa il 20% più veloce del percorso di riferimento di LM Studio sullo stesso hardware. La parte interessante non è il numero di throughput; è che il modello ha scelto Zig, un linguaggio con un corpus di training minuscolo rispetto a Python o Rust, e ha comunque prodotto un runtime di basso livello funzionante. Questa è la frontiera delle capacità che conta per il lavoro sui sistemi.
2. Ingegneria delle performance su una codebase reale
Dato il motore di matching finanziario open-source exchange-core, K2.6 ha consegnato un miglioramento mediano del throughput del 185%. Il lavoro ha comportato la lettura di una codebase Java sconosciuta, l'identificazione degli hot path e la loro riscrittura senza rompere le invarianti di matching. Questo è il carico di lavoro del "senior engineer su un nuovo progetto", ed è quello su cui la maggior parte dei modelli precedenti fallisce silenziosamente — producono diff plausibili che fanno regredire la correttezza.
3. Generazione full-stack design-to-code
K2.6 genera interfacce front-end complete con animazioni, poi le collega ad autenticazione e database. Il miglioramento di >50% sul benchmark Next.js di Vercel si mappa direttamente su questo — App Router, Server Components e l'ecosistema circostante sono dove la maggior parte dei modelli ancora allucina API, e K2.6 sembra aver colmato la maggior parte di quel gap.
Come K2.6 si inserisce nella timeline K2
| Versione | Rilasciata | Capacità principale |
|---|---|---|
| Kimi K2 | Lug 2025 | MoE da un trilione di parametri, open source Apache 2.0 |
| K2-Instruct-0905 | Set 2025 | 69,2% su SWE-Bench Verified |
| K2-Thinking | Nov 2025 | Ragionamento chain-of-thought |
| K2.5 | Gen 2026 | Multimodale + Agent Swarm v1 |
| K2.6 Code Preview | 13 apr 2026 | Beta di coding a lungo orizzonte |
| K2.6 (GA) | 21 apr 2026 | Esecuzioni di 12 ore, sciami di 300 agenti, generazione full-stack |
Moonshot ha mantenuto una cadenza di aggiornamenti principali ogni 2-3 mesi per quasi un anno. K2.6 è il primo rilascio in cui il gap tra preview e GA si misura in giorni anziché mesi — il che suggerisce che il prossimo drop (K3) potrebbe arrivare con lo stesso calendario compresso.
Per iniziare
K2.6 è disponibile oggi su quattro superfici:
- Kimi.com e l'app Kimi — il modo più rapido per provare le esecuzioni degli sciami di agenti in modo interattivo.
- API ufficiale — il campionamento predefinito è
temperature=1.0, top_p=1.0. Non abbassare questi valori per riflesso; il loop agentivo è stato ottimizzato con queste impostazioni. - Kimi Code CLI — il punto di ingresso consigliato per il coding a lungo orizzonte. Cablaggio predefinito di tool-calling, accesso al file system e supervisore dello sciame.
- Prezzi — vedere
kimi.com/membership/pricingper i livelli correnti. Le lunghe esecuzioni autonome consumano token non trascurabili; pianificare il budget a livello di sessione, non di richiesta.
Guida pratica per le esecuzioni lunghe
- Dagli una coda, non una domanda. K2.6 è ottimizzato per il funzionamento proattivo. Una lista di attività da cui attingere è meglio di un singolo prompt.
- Lascialo comprimere. Non tagliare manualmente il contesto tra i turni — il compressore integrato è migliore nel preservare le invarianti di cui ha bisogno.
- Supervisiona gli sciami a livello di piano. Se stai orchestrando 300 sotto-agenti, rivedi il piano, non ogni singola chiamata di strumento. Il Token Enforcer del modello gestisce la correttezza del formato delle chiamate; il tuo compito è revisionare la direzione.
- Migra da Claude in modo incrementale. L'API rimane compatibile con Anthropic, quindi i flussi di lavoro Claude Code esistenti possono cambiare gli URL base prima di cambiare i prompt.
Cosa significa per la voce su K3
Il leak di Reddit che ha preceduto K2.6 ha anche fatto riferimento a Kimi K3, con target di 3-4 trilioni di parametri per eguagliare la scala dei modelli frontier americani. Il rilascio GA di K2.6 dà più peso a quella voce: l'envelope di esecuzione di 12 ore e lo sciame di 300 agenti sono capacità che si scalano pulitamente in un modello base più grande, e Moonshot non investirebbe nell'infrastruttura del livello di esecuzione a meno che non stesse arrivando un modello più grande per sfruttarla.
K2.6 non è il punto finale. È il cablaggio che viene costruito affinché quando K3 arriverà, abbia un posto dove girare.
Fonti: note di rilascio ufficiali di Moonshot AI su kimi.com/blog/kimi-k2-6, dichiarazioni dei partner da CodeBuddy, Vercel e Factory.ai, e precedenti rapporti tecnici della serie K2. I dati dei benchmark riflettono i numeri pubblicati dai vendor al 21 aprile 2026.