Kimi K2.6 공식 출시: 에이전트 코딩 시대가 프로덕션에 진입하다
프리뷰에서 GA까지 단 8일
2026년 4월 13일, Moonshot AI는 베타 테스터들이 Kimi K2.6 Code Preview를 실행 중임을 이메일을 통해 조용히 확인했습니다. 8일 후, 회사는 "Preview" 라벨을 제거하고 Kimi K2.6을 Kimi.com, Kimi 앱, 공식 API, Kimi Code CLI 전반에 걸쳐 일반 제공 모델로 출하했습니다.
이는 K2 시리즈 역사상 가장 빠른 프리뷰-GA 전환 중 하나로, 내부 품질 기준이 이미 충족되었으며 파트너 평가(Vercel, Factory.ai, CodeBuddy)가 출시를 검증할 만큼 충분한 기간 동안 진행되었다는 신호입니다. 2025년 7월 오픈소스 데뷔 이후 K2 로드맵을 추적해온 팀들에게, K2.6은 "에이전트 코딩"이 데모를 벗어나 인프라로 자리잡는 버전입니다.
K2.5 대비 실제 변화
헤드라인은 단일 벤치마크 수치가 아닙니다. 바로 지속 시간, 폭, 그리고 조정력입니다. K2.5는 수백 단계 동안 코딩 작업을 유지할 수 있었습니다. K2.6은 최대 300개의 서브 에이전트로 구성된 단일 스웜에서 12시간과 4,000개의 조정된 단계를 유지하도록 설계되었습니다.
파트너가 보고한 K2.5 대비 차이:
| 파트너 | 보고된 개선 사항 |
|---|---|
| CodeBuddy | 코드 생성 정확도 +12%, 장문맥 안정성 +18% |
| Vercel | 내부 Next.js 벤치마크에서 50% 이상 개선 |
| Factory.ai | 두 평가 벤치마크 모두에서 +15% |
이는 Moonshot의 마케팅 수치가 아닌 독립적인 서드파티 수치이며, 바로 그렇기 때문에 중요합니다.
공개 벤치마크 하이라이트
- Terminal-Bench 2.0: 66.7%
- SWE-Bench Pro: 58.6%
- MathVision (Python 도구 사용 시): 93.2%
SWE-Bench Pro는 더 쉬운 "단일 파일 수정" 문제를 필터링한 SWE-Bench의 더 어려운 버전입니다. 따라서 58.6%는 K2.5가 SWE-Bench Verified에서 보고한 76.8%와 직접 비교할 수 없습니다. Pro를 새로운 정직한 상한선으로 이해하시기 바랍니다.
12시간 실행을 가능하게 하는 아키텍처
K2.6은 K2 시리즈가 2025년 7월부터 유지해온 조 단위 파라미터 MoE 백본(총 1T / 활성 32B / 토큰당 8개가 활성화되는 384개 전문가, MLA attention, SwiGLU, MuonClip 안정화 훈련)을 유지합니다. 새로운 것은 그 주변의 실행 레이어입니다:
- 컨텍스트 창을 262,144 토큰으로 확장. K2.5 Code Preview의 256K에서 증가하여, 중간 규모 모노레포와 테스트 출력 및 에이전트 자체 스크래치패드를 잘림으로 인한 드리프트 없이 보관할 수 있습니다.
- 자동 컨텍스트 압축. 모델은 창 한계에 가까워지면 자신의 히스토리를 요약하고 생략합니다. 이를 통해 12시간 세션이 9시간째에 손실 있는 리콜로 붕괴되지 않습니다.
- 에이전트 스웜 오케스트레이션. 최대 300개의 서브 에이전트를 생성, 스케줄링, 조정하기 위한 네이티브 기본 요소. 이것이 4,000단계 조정 수치를 의미 있게 만드는 기능입니다. 단일 에이전트는 일관된 계획으로 4,000개의 도구 호출을 현실적으로 실행할 수 없지만, 슈퍼바이저-플러스-워커 토폴로지는 가능합니다.
- 능동적 자율성. K2.6은 인간 차례를 기다리지 않고 작업 큐에 대해 24/7 실행하도록 조정되었습니다. 관련 최적화는 원시 처리량이 아닙니다. 바로 "막혔다"는 것을 인식하고 진행을 환각하는 대신 재계획하거나 에스컬레이션하는 능력입니다.
Moonshot이 실제로 출하한 세 가지 사용 사례
Kimi 팀은 출시와 함께 세 가지 참조 실행을 공개했습니다. 단순한 마케팅이 아닌 존재 증명으로 읽어볼 가치가 있습니다.
1. Zig으로 구현한 추론 최적화
K2.6은 Qwen3.5-0.8B를 Zig으로 로컬에 배포하여 초당 약 193 토큰을 달성했습니다. 동일한 하드웨어에서 LM Studio의 참조 경로보다 약 20% 빠른 속도입니다. 흥미로운 점은 처리량 수치가 아닙니다. 모델이 Python이나 Rust에 비해 훈련 코퍼스가 극히 작은 Zig을 선택했음에도 작동하는 저수준 런타임을 생성했다는 점입니다. 이것이 시스템 작업에서 중요한 능력의 최전선입니다.
2. 실제 코드베이스에서의 성능 엔지니어링
오픈소스 exchange-core 금융 매칭 엔진이 주어졌을 때, K2.6은 중앙값 처리량을 185% 개선했습니다. 이 작업에는 익숙하지 않은 Java 코드베이스 읽기, 핫 경로 식별, 매칭 불변 조건을 깨지 않고 재작성하는 것이 포함되었습니다. 이것이 "새 프로젝트의 시니어 엔지니어" 작업 부하이며, 이전 대부분의 모델이 암묵적으로 실패하는 유형입니다. 정확성을 퇴보시키는 표면상 그럴듯한 diff를 생성하는 것입니다.
3. 디자인-to-코드 풀스택 생성
K2.6은 애니메이션이 포함된 완전한 프론트엔드 인터페이스를 생성한 다음 인증 및 데이터베이스에 연결합니다. Vercel의 Next.js 벤치마크 50% 이상 개선이 바로 이것에 직접 매핑됩니다. App Router, Server Components 및 주변 에코시스템은 대부분의 모델이 여전히 API를 환각하는 영역이며, K2.6은 그 격차의 대부분을 좁힌 것으로 보입니다.
K2 타임라인에서 K2.6의 위치
| 버전 | 출시일 | 주요 기능 |
|---|---|---|
| Kimi K2 | 2025년 7월 | 조 단위 파라미터 MoE, Apache 2.0 오픈소스 |
| K2-Instruct-0905 | 2025년 9월 | SWE-bench Verified에서 69.2% |
| K2-Thinking | 2025년 11월 | 사고의 연쇄 추론 |
| K2.5 | 2026년 1월 | 멀티모달 + Agent Swarm v1 |
| K2.6 Code Preview | 2026년 4월 13일 | 장기 코딩 베타 |
| K2.6 (GA) | 2026년 4월 21일 | 12시간 실행, 300 에이전트 스웜, 풀스택 생성 |
Moonshot은 거의 1년 동안 2~3개월의 주요 업데이트 주기를 유지했습니다. K2.6은 프리뷰와 GA 사이의 간격이 개월이 아닌 일 단위로 측정되는 첫 번째 출시입니다. 이는 다음 출시(K3)가 동일한 압축된 일정으로 도착할 수 있음을 시사하며 중요한 의미를 가집니다.
시작하기
K2.6은 오늘부터 네 가지 플랫폼에서 이용 가능합니다:
- Kimi.com 및 Kimi 앱 — 에이전트 스웜 실행을 대화형으로 체험하는 가장 빠른 방법.
- 공식 API — 기본 샘플링은
temperature=1.0, top_p=1.0. 반사적으로 이 값을 낮추지 마세요. 에이전트 루프는 이 설정으로 조정되었습니다. - Kimi Code CLI — 장기 코딩의 권장 진입점. 기본적으로 도구 호출, 파일 시스템 액세스, 스웜 슈퍼바이저를 연결합니다.
- 요금 — 현재 티어는
kimi.com/membership/pricing을 참조하세요. 긴 자율 실행은 상당한 토큰을 소비합니다. 요청 단위가 아닌 세션 단위로 예산을 책정하세요.
장기 실행을 위한 실용적인 가이드
- 질문이 아닌 큐를 제공하세요. K2.6은 능동적인 운영을 위해 조정되었습니다. 끌어올 수 있는 작업 목록이 단일 프롬프트보다 효과적입니다.
- 압축을 맡기세요. 턴 사이에 수동으로 컨텍스트를 다듬지 마세요. 내장 압축기가 필요한 불변 조건을 보존하는 데 더 뛰어납니다.
- 계획 수준에서 스웜을 감독하세요. 300개의 서브 에이전트를 오케스트레이션하는 경우, 모든 도구 호출이 아닌 계획을 검토하세요. 모델의 Token Enforcer가 호출 형식의 정확성을 처리합니다. 당신의 역할은 방향을 검토하는 것입니다.
- Claude에서 점진적으로 마이그레이션하세요. API는 Anthropic 호환 상태를 유지하므로, 기존 Claude Code 워크플로는 프롬프트를 변경하기 전에 기본 URL을 교체할 수 있습니다.
K3 소문이 의미하는 것
K2.6에 앞서 나온 Reddit 유출은 또한 Kimi K3를 언급했으며, 프론티어 미국 모델의 규모에 맞추기 위해 3~4조 파라미터를 목표로 한다고 보고되었습니다. K2.6 GA 출시는 그 소문에 더 많은 신빙성을 부여합니다. 12시간 실행 엔벨로프와 300 에이전트 스웜은 더 큰 기반 모델로 깔끔하게 확장되는 기능이며, Moonshot은 이를 활용할 더 큰 모델이 오지 않는다면 실행 레이어 인프라에 투자하지 않을 것입니다.
K2.6은 종착점이 아닙니다. K3가 도착했을 때 실행할 장소가 있도록 만들어지고 있는 하네스입니다.
출처: kimi.com/blog/kimi-k2-6의 Moonshot AI 공식 출시 노트, CodeBuddy, Vercel, Factory.ai의 파트너 성명, 이전 K2 시리즈 기술 보고서. 벤치마크 수치는 2026년 4월 21일 기준 벤더 공개 수치를 반영합니다.