Nuovo modello
10 min min di lettura
AI Observer

Kimi K2.6 ufficialmente rilasciato: l'era del coding agentivo entra in produzione

Dalla preview alla disponibilità generale in otto giorni

Il 13 aprile 2026, Moonshot AI ha confermato silenziosamente via e-mail che i beta tester stavano già utilizzando Kimi K2.6 Code Preview. Otto giorni dopo, l'azienda ha rimosso l'etichetta "Preview" e ha rilasciato Kimi K2.6 come modello generalmente disponibile su Kimi.com, l'app Kimi, l'API ufficiale e la Kimi Code CLI.

Questa è una delle transizioni preview-to-GA più rapide nella storia della serie K2 — un segnale che il livello di qualità interno era già stato raggiunto e che le valutazioni dei partner (Vercel, Factory.ai, CodeBuddy) erano durate abbastanza a lungo da validare il rilascio. Per i team che hanno seguito la roadmap K2 dal debutto open-source nel luglio 2025, K2.6 è la versione in cui il "coding agentivo" smette di essere una demo e diventa infrastruttura.

Cosa è effettivamente cambiato rispetto a K2.5

Il titolo non è un singolo punto di benchmark — è durata, ampiezza e coordinazione. K2.5 riusciva a mantenere coerenza su un'attività di coding per alcune centinaia di passi. K2.6 è progettato per tenerla insieme per dodici ore e quattromila passi coordinati, con fino a 300 sotto-agenti in un singolo sciame.

Delta segnalati dai partner rispetto a K2.5:

PartnerMiglioramento segnalato
CodeBuddy+12% di accuratezza nella generazione di codice, +18% di stabilità su contesti lunghi
Vercel>50% di miglioramento sul benchmark Next.js interno
Factory.ai+15% su entrambi i benchmark valutati

Questi sono numeri indipendenti di terze parti, non le curve di marketing di Moonshot — ecco perché contano.

Highlights dei benchmark pubblicati

  • Terminal-Bench 2.0: 66,7%
  • SWE-Bench Pro: 58,6%
  • MathVision (con utilizzo di strumenti Python): 93,2%

SWE-Bench Pro è una versione più difficile di SWE-Bench che filtra i problemi più semplici del tipo "correzione su un singolo file" — quindi 58,6% non è direttamente comparabile al 76,8% che K2.5 ha riportato su SWE-Bench Verified. Considerare Pro come il nuovo tetto onesto.

L'architettura che rende possibili le esecuzioni di 12 ore

K2.6 mantiene la colonna vertebrale MoE da un trilione di parametri (1T totali / 32B attivi / 384 esperti con 8 attivati per token, attenzione MLA, SwiGLU, training stabilizzato da MuonClip) che la serie K2 porta avanti dal luglio 2025. La novità è il livello di esecuzione che la circonda:

  1. Finestra di contesto portata a 262.144 token. In aumento rispetto ai 256K di K2.5 Code Preview, abbastanza da contenere un monorepo di medie dimensioni più il suo output di test più il blocco note dell'agente senza deriva indotta da troncatura.
  2. Compressione automatica del contesto. Il modello riassume ed elimina la propria cronologia quando si avvicina al limite della finestra, in modo che una sessione di 12 ore non collassi in un ricordo frammentato alla nona ora.
  3. Orchestrazione dello sciame di agenti. Primitive native per generare, pianificare e riconciliare fino a 300 sotto-agenti. È questa capacità che rende significativo il numero di 4.000 passi coordinati — un singolo agente non può praticamente eseguire 4.000 chiamate di strumenti in un piano coerente, ma una topologia supervisore-più-lavoratori può farlo.
  4. Autonomia proattiva. K2.6 è ottimizzato per operare 24/7 su una coda di attività piuttosto che aspettare un turno umano. L'ottimizzazione rilevante non è il throughput grezzo; è la capacità di riconoscere "sono bloccato" e ripianificare o escalare invece di allucinare progressi.

Tre casi d'uso che Moonshot ha effettivamente consegnato

Il team Kimi ha pubblicato tre esecuzioni di riferimento con il rilascio. Vale la pena leggerle come prove di esistenza, non solo come marketing.

1. Ottimizzazione dell'inferenza in Zig

K2.6 ha deployato Qwen3.5-0.8B localmente, in Zig, raggiungendo ~193 token/sec — circa il 20% più veloce del percorso di riferimento di LM Studio sullo stesso hardware. La parte interessante non è il numero di throughput; è che il modello ha scelto Zig, un linguaggio con un corpus di training minuscolo rispetto a Python o Rust, e ha comunque prodotto un runtime di basso livello funzionante. Questa è la frontiera delle capacità che conta per il lavoro sui sistemi.

2. Ingegneria delle performance su una codebase reale

Dato il motore di matching finanziario open-source exchange-core, K2.6 ha consegnato un miglioramento mediano del throughput del 185%. Il lavoro ha comportato la lettura di una codebase Java sconosciuta, l'identificazione degli hot path e la loro riscrittura senza rompere le invarianti di matching. Questo è il carico di lavoro del "senior engineer su un nuovo progetto", ed è quello su cui la maggior parte dei modelli precedenti fallisce silenziosamente — producono diff plausibili che fanno regredire la correttezza.

3. Generazione full-stack design-to-code

K2.6 genera interfacce front-end complete con animazioni, poi le collega ad autenticazione e database. Il miglioramento di >50% sul benchmark Next.js di Vercel si mappa direttamente su questo — App Router, Server Components e l'ecosistema circostante sono dove la maggior parte dei modelli ancora allucina API, e K2.6 sembra aver colmato la maggior parte di quel gap.

Come K2.6 si inserisce nella timeline K2

VersioneRilasciataCapacità principale
Kimi K2Lug 2025MoE da un trilione di parametri, open source Apache 2.0
K2-Instruct-0905Set 202569,2% su SWE-Bench Verified
K2-ThinkingNov 2025Ragionamento chain-of-thought
K2.5Gen 2026Multimodale + Agent Swarm v1
K2.6 Code Preview13 apr 2026Beta di coding a lungo orizzonte
K2.6 (GA)21 apr 2026Esecuzioni di 12 ore, sciami di 300 agenti, generazione full-stack

Moonshot ha mantenuto una cadenza di aggiornamenti principali ogni 2-3 mesi per quasi un anno. K2.6 è il primo rilascio in cui il gap tra preview e GA si misura in giorni anziché mesi — il che suggerisce che il prossimo drop (K3) potrebbe arrivare con lo stesso calendario compresso.

Per iniziare

K2.6 è disponibile oggi su quattro superfici:

  • Kimi.com e l'app Kimi — il modo più rapido per provare le esecuzioni degli sciami di agenti in modo interattivo.
  • API ufficiale — il campionamento predefinito è temperature=1.0, top_p=1.0. Non abbassare questi valori per riflesso; il loop agentivo è stato ottimizzato con queste impostazioni.
  • Kimi Code CLI — il punto di ingresso consigliato per il coding a lungo orizzonte. Cablaggio predefinito di tool-calling, accesso al file system e supervisore dello sciame.
  • Prezzi — vedere kimi.com/membership/pricing per i livelli correnti. Le lunghe esecuzioni autonome consumano token non trascurabili; pianificare il budget a livello di sessione, non di richiesta.

Guida pratica per le esecuzioni lunghe

  • Dagli una coda, non una domanda. K2.6 è ottimizzato per il funzionamento proattivo. Una lista di attività da cui attingere è meglio di un singolo prompt.
  • Lascialo comprimere. Non tagliare manualmente il contesto tra i turni — il compressore integrato è migliore nel preservare le invarianti di cui ha bisogno.
  • Supervisiona gli sciami a livello di piano. Se stai orchestrando 300 sotto-agenti, rivedi il piano, non ogni singola chiamata di strumento. Il Token Enforcer del modello gestisce la correttezza del formato delle chiamate; il tuo compito è revisionare la direzione.
  • Migra da Claude in modo incrementale. L'API rimane compatibile con Anthropic, quindi i flussi di lavoro Claude Code esistenti possono cambiare gli URL base prima di cambiare i prompt.

Cosa significa per la voce su K3

Il leak di Reddit che ha preceduto K2.6 ha anche fatto riferimento a Kimi K3, con target di 3-4 trilioni di parametri per eguagliare la scala dei modelli frontier americani. Il rilascio GA di K2.6 dà più peso a quella voce: l'envelope di esecuzione di 12 ore e lo sciame di 300 agenti sono capacità che si scalano pulitamente in un modello base più grande, e Moonshot non investirebbe nell'infrastruttura del livello di esecuzione a meno che non stesse arrivando un modello più grande per sfruttarla.

K2.6 non è il punto finale. È il cablaggio che viene costruito affinché quando K3 arriverà, abbia un posto dove girare.


Fonti: note di rilascio ufficiali di Moonshot AI su kimi.com/blog/kimi-k2-6, dichiarazioni dei partner da CodeBuddy, Vercel e Factory.ai, e precedenti rapporti tecnici della serie K2. I dati dei benchmark riflettono i numeri pubblicati dai vendor al 21 aprile 2026.

Articoli correlati

Kimi K2.7 Code è disponibile. Questa guida spiega cosa significa Kimi K2.7 per Kimi Code: contesto 256K, modalità thinking, input multimodali, workflow agentici, prezzi e casi d'uso per sviluppatori.
Kimi Code è alimentato da Kimi K2.7 Code. Questa guida copre l'ID kimi-k2.7-code, variabili per Claude Code, configurazione Cline/RooCode, uso API, controllo dei costi e template di prompt.
Se Kimi ha già generato un link pubblico, il sito è già pubblicato per la condivisione. Questa guida spiega quando usare il link Kimi, quando esportare il codice e come spostare il sito sul tuo hosting.