Kimi K2.6 officiellt lanserat: den agentiska kodningsepoken går in i produktion
Från förhandsgranskning till GA på åtta dagar
Den 13 april 2026 bekräftade Moonshot AI tyst via e-post att beta-testare körde Kimi K2.6 Code Preview. Åtta dagar senare tog företaget bort etiketten "Preview" och levererade Kimi K2.6 som en allmänt tillgänglig modell på Kimi.com, Kimi-appen, det officiella API:et och Kimi Code CLI.
Detta är en av de snabbaste övergångarna från förhandsgranskning till GA i K2-seriens historia — ett tecken på att det interna kvalitetsmålet redan uppnåtts och att partnerbedömningar (Vercel, Factory.ai, CodeBuddy) hade pågått tillräckligt länge för att validera lanseringen. För team som har följt K2-färdplanen sedan open-source-debuten i juli 2025 är K2.6 den version där "agentisk kodning" slutar vara en demo och börjar bli infrastruktur.
Vad som faktiskt förändrades jämfört med K2.5
Rubriken är inte en enskild benchmarkpoäng — det är varaktighet, bredd och koordination. K2.5 kunde hålla ihop en kodningsuppgift i några hundra steg. K2.6 är designad för att hålla ihop en uppgift i tolv timmar och fyra tusen koordinerade steg, med upp till 300 underagenter i ett enda svärm.
Partnerrapporterade förändringar jämfört med K2.5:
| Partner | Rapporterad förbättring |
|---|---|
| CodeBuddy | +12% noggrannhet i kodgenerering, +18% stabilitet i långa kontexter |
| Vercel | >50% förbättring på det interna Next.js-riktmärket |
| Factory.ai | +15% på båda utvärderade riktmärkena |
Det här är oberoende tredjepartssiffror, inte Moonshotts egna marknadsföringskurvor — det är därför de spelar roll.
Publicerade benchmarkhöjdpunkter
- Terminal-Bench 2.0: 66,7%
- SWE-Bench Pro: 58,6%
- MathVision (med Python-verktygsanvändning): 93,2%
SWE-Bench Pro är ett svårare snitt av SWE-Bench som filtrerar bort de enklare "enfils-fix"-problemen — så 58,6% är inte direkt jämförbart med de 76,8% som K2.5 rapporterade på SWE-Bench Verified. Läs Pro som det nya ärliga taket.
Arkitekturen som gör 12-timmars körningar möjliga
K2.6 behåller triljon-parameters MoE-ryggraden (1T totalt / 32B aktiva / 384 experter med 8 aktiverade per token, MLA-attention, SwiGLU, MuonClip-stabiliserad träning) som K2-serien burit sedan juli 2025. Det nya är exekveringsnivån runt den:
- Kontextfönstret utökat till 262 144 tokens. Upp från 256K i K2.5 Code Preview, tillräckligt för att hålla ett medelstort monorepo plus dess testutdata plus agentens egna anteckningsblock utan trunkerings-inducerad drift.
- Automatisk kontextkomprimering. Modellen sammanfattar och elider sin egen historik när den närmar sig fönstergränsen, så att en 12-timmars session inte kollapsar till fragmenterat minne vid den nionde timmen.
- Agentsvärmsorkestration. Inbyggda primitiver för att spawna, schemalägga och stämma av upp till 300 underagenter. Det är denna förmåga som gör koordinationssiffran på 4 000 steg meningsfull — en enskild agent kan praktiskt taget inte utföra 4 000 verktygsanrop i en sammanhängande plan, men en supervisor-plus-workers-topologi kan.
- Proaktiv autonomi. K2.6 är inställd på att köra 24/7 mot en uppgiftskö snarare än att vänta på ett mänskligt tur. Den relevanta optimeringen är inte råa genomströmning; det är förmågan att känna igen "jag är fast" och antingen planera om eller eskalera istället för att hallucinera framsteg.
Tre verkliga användningsfall som Moonshot levererat
Kimi-teamet publicerade tre referenskörningar med lanseringen. De är värda att läsa som existensbevis, inte bara marknadsföring.
1. Inferensoptimering i Zig
K2.6 driftsatte Qwen3.5-0.8B lokalt, i Zig, och nådde ~193 tokens/sek — ungefär 20% snabbare än LM Studios referensväg på samma hårdvara. Den intressanta delen är inte genomströmningssiffran; det är att modellen valde Zig, ett språk med ett litet träningskropus jämfört med Python eller Rust, och ändå producerade en fungerande lågnivå-körtid. Det är förmågefrontlinjen som spelar roll för systemarbete.
2. Prestandateknik på en verklig kodbas
Givet den öppna källkodsbaserade exchange-core finansiella matchningsmotorn levererade K2.6 en 185% median genomströmningsförbättring. Arbetet innebar att läsa en okänd Java-kodbas, identifiera varma sökvägar och skriva om dem utan att bryta matchningsinvarianterna. Det är arbetsbelastningen för "seniora ingenjören på ett nytt projekt", och det är den som de flesta tidigare modeller misslyckas med tyst — de producerar plausibla diff:ar som försämrar korrekthet.
3. Design-till-kod full-stack-generering
K2.6 genererar kompletta frontend-gränssnitt med animationer och kopplar sedan ihop dem med autentisering och databaser. Vercels >50% Next.js-riktmärkesförbättring mappar direkt till detta — App Router, Server Components och det omgivande ekosystemet är där de flesta modeller fortfarande hallucinererar API:er, och K2.6 verkar ha stängt det mesta av det gapet.
Hur K2.6 passar in i K2-tidslinjen
| Version | Lanserad | Huvudförmåga |
|---|---|---|
| Kimi K2 | Jul 2025 | Triljon-parameters MoE, Apache 2.0 öppen källkod |
| K2-Instruct-0905 | Sep 2025 | 69,2% på SWE-Bench Verified |
| K2-Thinking | Nov 2025 | Kedjeav-tanke-resonemang |
| K2.5 | Jan 2026 | Multimodal + Agent Swarm v1 |
| K2.6 Code Preview | 13 apr 2026 | Långsiktig kodnings-beta |
| K2.6 (GA) | 21 apr 2026 | 12-timmars körningar, 300-agentsvärmar, full-stack-generering |
Moonshot har hållit en 2-3 månaders huvuduppdateringstakt i nästan ett år. K2.6 är den första lanseringen där gapet mellan förhandsgranskning och GA mäts i dagar snarare än månader — vilket antyder att nästa drop (K3) kan anlända på samma komprimerade schema.
Kom igång
K2.6 är live på fyra ytor idag:
- Kimi.com och Kimi-appen — det snabbaste sättet att prova agentsvärm-körningar interaktivt.
- Officiellt API — standardsamplingen är
temperature=1.0, top_p=1.0. Sänk inte dessa per reflex; den agentiska loopen var inställd på dessa inställningar. - Kimi Code CLI — den rekommenderade ingångspunkten för långsiktig kodning. Den kopplar upp verktygsanrop, filsystemsåtkomst och svärmsupervisorn som standard.
- Prissättning — se
kimi.com/membership/pricingför aktuella nivåer. Långa autonoma körningar förbrukar icke-triviala tokens; budgetera på sessionsnivå, inte förfrågningsnivå.
Praktisk vägledning för långa körningar
- Ge den en kö, inte en fråga. K2.6 är inställd på proaktiv drift. En uppgiftslista att dra ifrån slår en enda prompt.
- Låt den komprimera. Trimma inte kontext manuellt mellan turer — den inbyggda komprimeraren är bättre på att bevara de invarianter den behöver.
- Övervaka svärmar på plannivå. Om du orkestrerar 300 underagenter, granska planen, inte varje verktygsanrop. Modellens Token Enforcer hanterar anropsformatkorrekthet; ditt jobb är att granska riktningen.
- Migrera från Claude inkrementellt. API:et förblir Anthropic-kompatibelt, så befintliga Claude Code-arbetsflöden kan byta bas-URL:er innan de byter prompts.
Vad detta betyder för K3-ryktet
Reddit-läckan som föregick K2.6 refererade också till Kimi K3, som uppgavs rikta in sig på 3-4 biljoner parametrar för att matcha skalan hos amerikanska frontmodeller. K2.6 GA-lanseringen ger det ryktet mer tyngd: 12-timmars exekveringsenvelopet och 300-agentsvärmarna är förmågor som skalar rent till en större basmodell, och Moonshot skulle inte investera i exekveringsnivåinfrastruktur om inte en större modell var på väg att utnyttja den.
K2.6 är inte slutpunkten. Det är harnesk som byggs så att när K3 landar, har det ett ställe att köra.
Källor: Moonshot AIs officiella lanseringsnoteringar på kimi.com/blog/kimi-k2-6, partnerutlåtanden från CodeBuddy, Vercel och Factory.ai, samt tidigare K2-seriens tekniska rapporter. Benchmarksiffror återspeglar leverantörspublicerade siffror per den 21 april 2026.