Kimi K3-hub (uppdaterad): Specs, pris, API-id och när byta → /sv/kimi-k3. Release-tidslinje → /sv/kimi-k3-status.

Metoden: infrastruktur förutsäger modeller

Modelllabb publicerar två sorters saker. Det första är modellen i sig — vikter, benchmarks, ett releaseinlägg på bloggen. Det andra är mycket tystare: exekveringsinfrastrukturen runt modellen. Tool-calling-format, kontextkompressorer, svärmschemalägare, samplingdefaults, CLI-ergonomi. De flesta läsare skummar förbi det här lagret på väg till benchmarktabellen.

Det borde de inte. Exekveringsinfrastruktur är dyr att bygga och tråkig att marknadsföra. Labb investerar bara i den när de vet att en specifik typ av modell är på väg som kommer att behöva den. Infrastrukturen levereras sex månader före den modell den byggdes för.

Det är linsen att läsa K2.6 genom. Glöm Terminal-Bench-numret ett ögonblick. Vad säger selekets form oss om vad som är meningen att köra på det?

Fyra signaler i K2.6 som pekar bortom K2.6

1. Det 12-timmarslånga exekveringsutrymmet är överdimensionerat för K2.6

En 32B-aktiv MoE, även vid K2.6:s kvalitet, behöver inte ett 12-timmar autonomt utrymme för att leverera sitt värde. De flesta K2.6-framgångarna — Zig-runtimen, exchange-core-omskrivningen, Next.js-genereringen — ryms bekvämt inom ett fönster på 30 minuter till 2 timmar. 12-timmarsmålet är inte kalibrerat efter vad K2.6 kan göra produktivt ensam; det är kalibrerat efter vad en väsentligt smartare modell skulle kunna göra om den fick utrymme att planera.

Exekvering med lång horisont skalas superlineärt med basmodellens förmåga. En modell som är 30% bättre vid varje enskilt steg är inte 30% bättre över 4 000 steg — den är flera gånger bättre, eftersom fel ackumuleras multiplikativt. Att bygga 12-timmarssystemet nu lönar sig bara om en modell är på väg som faktiskt kan fylla det.

2. 300 subagenter är en koordinationstopologi, inte ett genomströmningsknep

Man spawnar inte 300 workers för att parallellisera en väldefinierad uppgift. Man spawnar 300 workers när supervisorn är tillräckligt smart för att dela upp ett problem i 300 löst kopplade delar och förena deras utdata. Flaskhalsen i svärmsarkitekturer är alltid supervisorns planeringskvalitet, aldrig workrarnas råa hastighet.

Investeringen i 300-agentsorkestrering är alltså ett vad på supervisorkvalitet — och supervisorn är basmodellen. Moonshot bygger nu schemläggnings-, meddelandeöverförings- och försoningsmaskineri, så att när de lanserar en basmodell tillräckligt stark för att vara en kompetent supervisor för 300 agenter, behöver det kringliggande systemet inte skrivas om.

3. Kontextkompressorn är ett minnessurrogat

K2.6:s automatiska kontextkomprimering presenteras som en bekvämlighet — oroa dig inte för avskärning under långa körningar. Läst arkitektoniskt är det något annat: en handkodad ersättare för det långtidsminne en större modell skulle ha inbyggt. Att komprimera och elida sin egen historia är vad man gör när arbetsminnet är flaskhalsen. En större modell med starkare in-context-återkallning behöver mindre av denna byggnadsställning, men K2.6:s kompressor kommer ändå att förbli återfallsvägen, och den API-yta den exponerar (vad som sammanfattas, vad som bevaras bokstavligt) är framåtkompatibel med en modell som använder den sparsamt.

4. Anthropic API-kompatibilitet är en migrationsramp

Att K2.6 förblir trådkompatibelt med Anthropics API presenteras vanligtvis som en bekvämlighet för Claude Code-användare. Det är också något annat: en friktionsfri väg för team att standardisera på Moonshoots exekveringslager innan toppmodellen anländer. Ekosystemspelet lönar sig bara om det finns en framtida modell värd att migrera till. Man bygger inte en migrationsramp till en återvändsgränd.

Hur K3 sannolikt ser ut

Triangulerat från de fyra signalerna ovan, plus Reddit-läckan som föregick K2.6:s förhandsvisning, framträder en sammanhängande bild av K3. Betrakta detta som en välgrundad prognos, inte en läcka.

Parameterskala: 3–4 biljoner totalt, sannolikt ~100B aktiva

Läckans "3–4 biljoner parametrar" mappas naturligt till en fortsatt MoE-arkitektur — täta modeller i den skalan är oöverkomliga att driftsätta, och Moonshoots hela träningsstack (MuonClip, 384-expertrouting) är MoE-nativ. Att fördubbla eller tredubbla antalet experter samtidigt som de aktiva parametrarna skalas till ungefär 3x K2.6:s 32B är vägen med minst arkitektoniskt motstånd. Förvänta er något i storleksordningen 96B–128B aktivt.

Kontext: 1M tokens, möjligen med ett nivåindelat minne

K2.6:s 262K-fönster plus explicit komprimering är exakt den lösning ett labb bygger medan de väntar på att leverera inbyggt kontext på en miljon tokens. Ett 1M-fönster kombinerat med den befintliga kompressorn ger ungefär 4M tokens effektivt arbetsminne för långa agentkörningar — regimen där en hel företagskodebas plus dess historia ryms i kontexten.

Det verkliga deltat: supervisorkvaliteten

Den intressanta skalningsdimensionen för K3 är inte benchmark-poäng per parameter. Det är hur djupt ett planträd modellen kan hålla sammanhängande. K2.6 i supervisorrollen hanterar 300 workers över 4 000 steg. En K3-klassmodell borde driva det till ett lågt antal tusentals workers och tiotals tusentals steg — inte för att mer är bättre, utan för att det är regimen där "lägga ut hela en liten produktutveckling till agenten över natten" blir praktiskt snarare än önskvärt.

Vad K3 inte behöver göra

Några saker som K2.6 redan hanterar tillräckligt bra för att K3 inte behöver bevisa dem igen: Apache-2.0-öppenheten hos bas-K2-vikterna, MLA-attention, MuonClip-träningsreceptet, Anthropic API-kompatibilitet. Det är avgjorda beslut. Deltat kommer att finnas i skala, supervisorsresonemang, och troligtvis ett verkligt multimodalt språng — K2.5 introducerade multimodalitet, K2.6 knappt rörde vid den, vilket verkar som en förmåga som hålls i reserv.

Kadensledtråden

Ännu en signal värd att ta på allvar: K2.6 gick från förhandsvisning till GA på åtta dagar. Varje tidigare K2-release hade veckor till månader mellan förhandsvisningens framträdande och allmän tillgänglighet. En komprimerad förhandsvisningscykel innebär att den interna releasetröskeln passerades långt före den offentliga förhandsvisningen — vilket innebär att K2.6 hölls tillbaka för något. Det mest sannolika något är en K3-tidslinje som behöver K2.6 i produktion först, så att exekveringslagret har verklig telemetri innan den större modellen går live ovanpå det.

Moonshoots historiska kadens är 2–3 månader mellan stora releaser. Om det håller, landar K3 i juni–juli 2026-fönstret. Om den komprimerade K2.6-cykeln är den nya normalen kan det bli tidigare. Julididatumet är också symboliskt lämpligt — ettårsdagen av det ursprungliga K2 open-source-releaset. Labb bryr sig om jubileer mer än de erkänner.

Vad man gör med den här prognosen

Tre praktiska konsekvenser för team som bygger på K2-linjen:

Standardisera på Kimi Code CLI och det Anthropic-kompatibla API:et nu. Infrastrukturen är stabil; den underliggande modellen kommer att bytas ut under er. Om ert arbetsflöde beror på idiosynkratiskt Claude-specifikt beteende, porta det innan K3 anländer, inte efter.
Börja designa uppgifter i termer av köer och planträd, inte enstaka promptar. K2.6-exekveringslagret belönar detta; K3-exekveringslagret kommer att kräva det. Team som fortfarande promptar varv för varv i april 2026 måste skriva om sina arbetsflöden i juli.
Behandla 12-timmarsutrymmet som en tvingande funktion för er egen observabilitet. Om en agent kan köra i 12 timmar kan ni inte se på. Ni behöver traces, checkpoints och granskning på plannivå — samma verktyg ni skulle bygga för en mänsklig kontraktsanställd. Investera i det nu, och K3:s längre utrymme blir fri kapacitet istället för en risk.

Det verkliga budskapet

K2.6 är en stark, leveransbar modell i sin egen rätt. Men den mer talande historien är att Moonshot har byggt en sele som är för stor för den häst som för närvarande springer i den. Det gapet är inte en olyckshändelse. Det är formen på nästa modell, kastad som en skugga på golvet.

Titta på infrastrukturen, inte på benchmarks. Den berättar vad som kommer härnäst.

Den här artikeln är analys och prognos, inte en läcka. Källor: Moonshot AI:s officiella K2.6-releasematerial på kimi.com/blog/kimi-k2-6, K2.6 Code Preview-utrullningen den 13 april 2026, partnerrapporter från Vercel, Factory.ai och CodeBuddy, samt Reddit r/LocalLLaMA-communitydiskussionen som föregick K2.6-förhandsvisningen. Alla påståenden om K3 är slutsatser från offentliga signaler och bör läsas som sådana.

K2.6 är startbanan för K3: att läsa nästa modell ur dagens exekveringslager

Metoden: infrastruktur förutsäger modeller

Fyra signaler i K2.6 som pekar bortom K2.6

1. Det 12-timmarslånga exekveringsutrymmet är överdimensionerat för K2.6

2. 300 subagenter är en koordinationstopologi, inte ett genomströmningsknep

3. Kontextkompressorn är ett minnessurrogat

4. Anthropic API-kompatibilitet är en migrationsramp

Hur K3 sannolikt ser ut

Parameterskala: 3–4 biljoner totalt, sannolikt ~100B aktiva

Kontext: 1M tokens, möjligen med ett nivåindelat minne

Det verkliga deltat: supervisorkvaliteten

Vad K3 inte behöver göra

Kadensledtråden

Vad man gör med den här prognosen

Det verkliga budskapet

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Relaterade artiklar