Kimi K3 허브(업데이트): 사양·가격·API ID·전환 판단 → /ko/kimi-k3. 출시 타임라인 → /ko/kimi-k3-status.

방법론: 인프라가 모델을 예고한다

모델 랩이 출시하는 것에는 두 가지 종류가 있다. 첫 번째는 모델 자체 — 가중치, 벤치마크, 출시 블로그다. 두 번째는 훨씬 조용하다: 모델 주변의 실행 인프라. 도구 호출 형식, 컨텍스트 압축기, 군집 스케줄러, 샘플링 기본값, CLI 인체공학. 대부분의 독자들은 벤치마크 표로 가는 길에 이 레이어를 훑고 지나친다.

그러면 안 된다. 실행 인프라는 구축하는 데 비용이 많이 들고 마케팅하기에 지루하다. 랩은 그것을 필요로 할 특정 종류의 모델이 올 것을 알 때만 투자한다. 인프라는 그것이 구축된 모델보다 6개월 먼저 출시된다.

이것이 K2.6을 읽는 렌즈다. Terminal-Bench 수치는 잠시 잊어라. 하네스의 형태는 그 위에서 실행되도록 의도된 것에 대해 무엇을 말하는가?

K2.6을 넘어 가리키는 K2.6의 네 가지 신호

1. 12시간 실행 엔벨로프는 K2.6에 과잉 설계되어 있다

32B-active MoE는 K2.6의 품질에서도 그 가치를 전달하기 위해 12시간 자율 엔벨로프가 필요하지 않다. K2.6의 주요 성과 대부분 — Zig 런타임, 거래소 코어 재작성, Next.js 생성 — 은 30분에서 2시간 창 안에 충분히 맞는다. 12시간 목표는 K2.6이 혼자서 생산적으로 할 수 있는 것에 맞춰 조정된 것이 아니다; 계획할 공간이 주어진다면 실질적으로 더 스마트한 모델이 할 수 있는 것에 맞춰 조정된 것이다.

장기 실행은 기반 모델 능력과 함께 초선형으로 스케일한다. 단일 단계에서 30% 더 나은 모델은 4,000단계에 걸쳐 30% 더 나은 것이 아니다 — 오류가 곱셈적으로 누적되기 때문에 수배 더 낫다. 12시간 하네스를 지금 구축하는 것은 실제로 그것을 채울 수 있는 모델이 온다면 그때만 보람이 있다.

2. 300개의 서브에이전트는 처리량 트릭이 아니라 조정 토폴로지다

잘 정의된 태스크를 병렬화하기 위해 300명의 작업자를 생성하지는 않는다. 슈퍼바이저가 문제를 300개의 느슨하게 결합된 조각으로 분해하고 그 출력을 조율할 만큼 충분히 스마트할 때 300명의 작업자를 생성한다. 군집 아키텍처의 병목은 항상 슈퍼바이저의 계획 품질이지 작업자의 원시 속도가 아니다.

따라서 300개 에이전트 오케스트레이션에 대한 투자는 슈퍼바이저 품질에 대한 베팅이다 — 그리고 슈퍼바이저는 기반 모델이다. Moonshot은 300개 에이전트의 유능한 슈퍼바이저가 될 만큼 충분히 강력한 기반 모델을 출시할 때 주변 시스템이 재작성을 필요로 하지 않도록 지금 스케줄링, 메시지 전달 및 조정 기계를 구축하고 있다.

3. 컨텍스트 압축기는 메모리 대체물이다

K2.6의 자동 컨텍스트 압축은 편의 기능으로 틀이 잡혀 있다 — 긴 실행 중에 잘림에 대해 걱정하지 마라. 아키텍처적으로 읽으면 그것은 다른 것이다: 더 큰 모델이 네이티브로 가질 장기 기억에 대한 수동 코딩된 대체물. 자신의 이력을 압축하고 생략하는 것은 작업 메모리가 병목일 때 하는 일이다. 더 강한 인컨텍스트 회상을 가진 더 큰 모델은 이 스캐폴딩을 덜 필요로 하지만, K2.6의 압축기는 여전히 폴백 경로가 될 것이며, 그것이 노출하는 API 표면(무엇이 요약되는지, 무엇이 리터럴로 보존되는지)은 그것을 드물게 사용하는 모델과 전방 호환된다.

4. Anthropic API 호환성은 마이그레이션 램프다

K2.6이 Anthropic의 API와 와이어 호환성을 유지하는 것은 보통 Claude Code 사용자의 편의로 틀이 잡혀 있다. 그것은 또한 다른 것이기도 하다: 헤드라인 모델이 도착하기 전에 팀이 Moonshot의 실행 레이어에 표준화할 수 있는 저마찰 경로. 에코시스템 플레이는 이주할 가치가 있는 미래 모델이 있을 때만 보람이 있다. 막다른 길에 마이그레이션 램프를 구축하지 않는다.

K3는 아마도 어떻게 생겼을까

위의 네 가지 신호, 그리고 K2.6의 프리뷰에 앞선 Reddit 유출을 삼각 측량하면 K3의 일관된 그림이 나타난다. 이것을 유출이 아닌 합리적인 예측으로 취급하라.

매개변수 규모: 총 3-4T, 아마도 ~100B 활성

유출의 "3-4조 매개변수"는 자연스럽게 지속적인 MoE 아키텍처에 매핑된다 — 그 규모의 밀도 모델은 제공하기에 금지될 정도로 비싸며, Moonshot의 전체 훈련 스택(MuonClip, 384-전문가 라우팅)은 MoE 네이티브다. 전문가 수를 두 배 또는 세 배로 늘리면서 활성 매개변수를 K2.6의 32B의 약 3배로 스케일하는 것이 가장 적은 아키텍처적 저항의 경로다. 96B-128B 활성 근방의 무언가를 기대하라.

컨텍스트: 1M 토큰, 아마도 계층화된 메모리 포함

K2.6의 262K 창과 명시적 압축은 랩이 네이티브 백만 토큰 컨텍스트를 출시하기를 기다리는 동안 구축하는 정확한 워크어라운드다. 기존 압축기와 결합된 1M 창은 긴 에이전트 실행에 대해 약 4M 토큰의 유효한 작업 메모리를 준다 — 전체 회사 코드베이스와 그 이력이 컨텍스트에 맞는 영역이다.

진짜 델타: 슈퍼바이저 품질

K3에 대한 흥미로운 스케일링 차원은 매개변수당 벤치마크 포인트가 아니다. 그것은 모델이 일관되게 유지할 수 있는 계획 트리의 깊이다. 슈퍼바이저 역할에서의 K2.6은 4,000단계에 걸쳐 300명의 작업자를 관리한다. K3 클래스 모델은 그것을 수천 명의 작업자와 수만 단계로 밀어붙여야 한다 — 더 많은 것이 더 좋기 때문이 아니라, 그것이 "전체 작은 제품을 에이전트에게 밤새 아웃소싱하는" 것이 열망적이 아닌 실용적이 되는 영역이기 때문이다.

K3가 할 필요가 없는 것

K2.6이 이미 충분히 잘 처리하여 K3가 다시 증명할 필요가 없는 몇 가지: 기반 K2 가중치의 Apache-2.0 개방성, MLA 어텐션, MuonClip 훈련 레시피, Anthropic API 호환성. 이것들은 해결된 결정이다. 델타는 규모, 슈퍼바이저 추론, 그리고 아마도 진짜 멀티모달 도약에 있을 것이다 — K2.5는 멀티모달을 도입했고, K2.6은 거의 건드리지 않았는데, 이는 능력이 보류되고 있다는 것으로 읽힌다.

케이던스 단서

진지하게 받아들일 가치가 있는 신호가 하나 더 있다: K2.6은 프리뷰에서 GA까지 8일 만에 이루어졌다. 이전의 모든 K2 출시는 프리뷰 서페이싱과 일반 가용성 사이에 몇 주에서 몇 달이 있었다. 압축된 프리뷰 사이클은 내부 출시 기준이 공개 프리뷰 훨씬 전에 통과되었음을 의미한다 — 이는 K2.6이 무언가를 위해 보류되었음을 의미한다. 가장 그럴듯한 무언가는 더 큰 모델이 그 위에서 가동되기 전에 실행 레이어가 실제 세계 원격 측정을 갖추도록 K2.6이 먼저 프로덕션에 있어야 하는 K3 타임라인이다.

Moonshot의 역사적 케이던스는 주요 출시 사이에 2-3개월이다. 그것이 유지되면 K3는 2026년 6-7월 창에 착지한다. 압축된 K2.6 사이클이 새로운 표준이라면 더 빠를 수 있다. 7월 날짜는 또한 상징적으로 편리하다 — 원래 K2 오픈소스 출시의 1주년. 랩은 그들이 인정하는 것보다 기념일에 더 신경을 쓴다.

이 예측으로 무엇을 할 것인가

K2 라인을 구축하는 팀을 위한 세 가지 실용적 함의:

지금 Kimi Code CLI와 Anthropic 호환 API에 표준화하라. 인프라는 안정적이다; 기반 모델은 당신 아래에서 교체될 것이다. 워크플로우가 Claude 특유의 독특한 동작에 의존한다면, K3가 착지한 후가 아니라 전에 포팅하라.
단일 프롬프트가 아니라 큐와 계획 트리의 관점에서 태스크 설계를 시작하라. K2.6 실행 레이어는 이것에 보상한다; K3 실행 레이어는 그것을 요구할 것이다. 2026년 4월에 여전히 턴바이턴으로 프롬프팅하는 팀은 7월에 워크플로우를 다시 작성해야 할 것이다.
12시간 엔벨로프를 자신의 관찰 가능성을 위한 강제 함수로 취급하라. 에이전트가 12시간 동안 실행될 수 있다면 당신은 그것을 지켜볼 수 없다. 트레이스, 체크포인트, 계획 수준의 검토가 필요하다 — 인간 계약자를 위해 구축할 것과 동일한 도구 세트. 지금 그것에 투자하면 K3의 더 긴 엔벨로프는 리스크 대신 여유 용량이 된다.

진짜 요점

K2.6은 그 자체로 강력하고 출시 가능한 모델이다. 하지만 더 시사적인 이야기는 Moonshot이 현재 그 안에서 달리는 말에는 너무 큰 하네스를 구축했다는 것이다. 그 간극은 우연이 아니다. 그것은 바닥에 그림자로 드리워진 다음 모델의 형태다.

벤치마크가 아니라 인프라를 보라. 그것이 다음에 올 것을 말해준다.

이 기사는 분석과 예측이며 유출이 아니다. 출처: kimi.com/blog/kimi-k2-6의 Moonshot AI 공식 K2.6 출시 자료, 2026년 4월 13일의 K2.6 Code Preview 롤아웃, Vercel, Factory.ai 및 CodeBuddy의 파트너 보고서, K2.6 프리뷰에 앞선 Reddit r/LocalLLaMA 커뮤니티 토론. K3에 대한 모든 주장은 공개 신호에서의 추론이며 그렇게 읽혀야 한다.

K2.6은 K3로 가는 활주로: 오늘의 실행 레이어에서 다음 모델을 읽다

방법론: 인프라가 모델을 예고한다

K2.6을 넘어 가리키는 K2.6의 네 가지 신호

1. 12시간 실행 엔벨로프는 K2.6에 과잉 설계되어 있다

2. 300개의 서브에이전트는 처리량 트릭이 아니라 조정 토폴로지다

3. 컨텍스트 압축기는 메모리 대체물이다

4. Anthropic API 호환성은 마이그레이션 램프다

K3는 아마도 어떻게 생겼을까

매개변수 규모: 총 3-4T, 아마도 ~100B 활성

컨텍스트: 1M 토큰, 아마도 계층화된 메모리 포함

진짜 델타: 슈퍼바이저 품질

K3가 할 필요가 없는 것

케이던스 단서

이 예측으로 무엇을 할 것인가

진짜 요점

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

관련 기사