Kimi K2.6 официально выпущен: эра агентного программирования входит в продакшн
От превью до GA за восемь дней
13 апреля 2026 года Moonshot AI тихо подтвердила по электронной почте, что бета-тестеры уже используют Kimi K2.6 Code Preview. Восемь дней спустя компания сняла пометку «Preview» и выпустила Kimi K2.6 как общедоступную модель на Kimi.com, в приложении Kimi, через официальный API и в Kimi Code CLI.
Это один из самых быстрых переходов от превью к GA в истории серии K2 — сигнал того, что внутренняя планка качества была уже достигнута, а партнёрские оценки (Vercel, Factory.ai, CodeBuddy) шли достаточно долго для валидации релиза. Для команд, следящих за дорожной картой K2 со времён дебюта open-source в июле 2025 года, K2.6 — это версия, в которой «агентное программирование» перестаёт быть демо и становится инфраструктурой.
Что фактически изменилось по сравнению с K2.5
Главное — не один показатель бенчмарка, а длительность, охват и координация. K2.5 мог поддерживать согласованность задачи программирования на несколько сотен шагов. K2.6 спроектирован для работы двенадцать часов и четыре тысячи скоординированных шагов с участием до 300 подагентов в одном рое.
Улучшения, заявленные партнёрами по сравнению с K2.5:
| Партнёр | Заявленное улучшение |
|---|---|
| CodeBuddy | +12% точности генерации кода, +18% стабильности на длинных контекстах |
| Vercel | >50% улучшения на внутреннем бенчмарке Next.js |
| Factory.ai | +15% на обоих оцениваемых бенчмарках |
Это независимые данные третьих сторон, а не маркетинговые кривые самой Moonshot — именно поэтому они важны.
Опубликованные результаты бенчмарков
- Terminal-Bench 2.0: 66,7%
- SWE-Bench Pro: 58,6%
- MathVision (с использованием инструментов Python): 93,2%
SWE-Bench Pro — более сложный срез SWE-Bench, отфильтровывающий лёгкие задачи вида «правка одного файла», поэтому 58,6% нельзя напрямую сравнивать с 76,8%, которые K2.5 показал на SWE-Bench Verified. Pro следует считать новым честным потолком.
Архитектура, позволяющая запускать модель на 12 часов
K2.6 сохраняет трёхзвенную MoE-основу на один триллион параметров (1T всего / 32B активных / 384 эксперта с 8 активированными на токен, внимание MLA, SwiGLU, обучение, стабилизированное MuonClip), которую серия K2 несёт с июля 2025 года. Новое — это уровень исполнения вокруг неё:
- Контекстное окно увеличено до 262 144 токенов. Рост по сравнению с 256K у K2.5 Code Preview — достаточно, чтобы удержать монорепозиторий среднего размера вместе с его тестовым выводом и собственным черновиком агента без потери контекста из-за усечения.
- Автоматическое сжатие контекста. Модель резюмирует и убирает свою собственную историю при приближении к границе окна, так что 12-часовая сессия не превращается в разрозненные воспоминания к девятому часу.
- Оркестрация роя агентов. Нативные примитивы для порождения, планирования и согласования до 300 подагентов. Именно эта возможность делает осмысленным число в 4000 скоординированных шагов — одиночный агент практически не может выполнить 4000 вызовов инструментов в рамках связного плана, а топология «супервизор плюс рабочие» может.
- Проактивная автономия. K2.6 настроен работать 24/7 с очередью задач, а не ждать своей очереди от человека. Ключевая оптимизация — не грубая пропускная способность, а способность распознать «я застрял» и либо перепланировать, либо эскалировать, вместо того чтобы галлюцинировать прогресс.
Три сценария использования, которые Moonshot реально показала
Команда Kimi опубликовала три референсных прогона вместе с релизом. Их стоит прочитать как доказательство существования, а не просто маркетинг.
1. Оптимизация инференса на Zig
K2.6 развернул Qwen3.5-0.8B локально, на Zig, достигнув ~193 токен/сек — примерно на 20% быстрее референсного пути LM Studio на том же железе. Интересна не цифра пропускной способности; интересно то, что модель выбрала Zig — язык с минимальным обучающим корпусом по сравнению с Python или Rust — и всё равно создала рабочую низкоуровневую среду выполнения. Это граница возможностей, важная для системной работы.
2. Оптимизация производительности на реальной кодовой базе
Получив open-source движок финансового матчинга exchange-core, K2.6 обеспечил 185% медианного прироста пропускной способности. Задача включала чтение незнакомой кодовой базы на Java, выявление горячих путей и их переписывание без нарушения инвариантов матчинга. Это нагрузка «старшего разработчика на новом проекте» — и именно та, на которой большинство предыдущих моделей молча проваливаются: они производят правдоподобные диффы, ухудшающие корректность.
3. Полноценная full-stack-генерация от дизайна до кода
K2.6 генерирует полноценные фронтенд-интерфейсы с анимациями, а затем подключает их к аутентификации и базам данных. Улучшение Vercel на >50% в бенчмарке Next.js напрямую связано с этим — App Router, Server Components и окружающая экосистема — это области, где большинство моделей до сих пор галлюцинируют API, и K2.6, судя по всему, закрыл большую часть этого разрыва.
Место K2.6 в хронологии K2
| Версия | Выпущена | Ключевая возможность |
|---|---|---|
| Kimi K2 | Июл 2025 | MoE на один триллион параметров, open source Apache 2.0 |
| K2-Instruct-0905 | Сен 2025 | 69,2% на SWE-Bench Verified |
| K2-Thinking | Ноя 2025 | Рассуждение по цепочке мыслей |
| K2.5 | Янв 2026 | Мультимодальность + Agent Swarm v1 |
| K2.6 Code Preview | 13 апр 2026 | Бета долгосрочного программирования |
| K2.6 (GA) | 21 апр 2026 | 12-часовые прогоны, рои из 300 агентов, full-stack-генерация |
Moonshot придерживалась цикла обновлений раз в 2-3 месяца почти год. K2.6 — первый релиз, где разрыв между превью и GA измеряется днями, а не месяцами, — что намекает: следующий дроп (K3) может прийти в столь же сжатые сроки.
Начало работы
K2.6 сегодня доступен на четырёх платформах:
- Kimi.com и приложение Kimi — самый быстрый способ интерактивно опробовать прогоны в режиме роя агентов.
- Официальный API — по умолчанию используется
temperature=1.0, top_p=1.0. Не стоит снижать эти значения рефлекторно; агентный цикл был настроен именно на этих параметрах. - Kimi Code CLI — рекомендуемая точка входа для долгосрочного программирования. По умолчанию подключены вызов инструментов, доступ к файловой системе и супервизор роя.
- Ценообразование — текущие тарифы на
kimi.com/membership/pricing. Длительные автономные прогоны потребляют ощутимое количество токенов; бюджетируйте на уровне сессии, а не запроса.
Практические рекомендации для длинных прогонов
- Давайте очередь, а не вопрос. K2.6 оптимизирован для проактивной работы. Список задач, из которого он может черпать, лучше одного единственного промпта.
- Разрешите ему сжимать. Не обрезайте контекст вручную между итерациями — встроенный компрессор лучше сохраняет нужные инварианты.
- Контролируйте рои на уровне плана. Если вы оркестрируете 300 подагентов, проверяйте план, а не каждый вызов инструмента. Token Enforcer модели заботится о корректности формата вызовов; ваша задача — контролировать направление.
- Мигрируйте с Claude постепенно. API остаётся совместимым с Anthropic, поэтому существующие рабочие процессы Claude Code могут сначала поменять базовые URL, а затем — промпты.
Что это означает для слухов о K3
Утечка на Reddit, предшествовавшая K2.6, также упоминала Kimi K3, предположительно нацеленный на 3-4 триллиона параметров, чтобы соответствовать масштабу передовых американских моделей. Выпуск GA K2.6 придаёт этому слуху больше веса: 12-часовая оболочка исполнения и рой из 300 агентов — это возможности, которые чисто масштабируются на более крупную базовую модель, и Moonshot не стала бы инвестировать в инфраструктуру уровня исполнения, если бы не приходила более крупная модель, которая её использует.
K2.6 — не конечная точка. Это упряжь, которую строят так, чтобы когда K3 появится, у неё было где работать.
Источники: официальные примечания к релизу Moonshot AI на kimi.com/blog/kimi-k2-6, заявления партнёров CodeBuddy, Vercel и Factory.ai, а также предыдущие технические отчёты серии K2. Цифры бенчмарков отражают данные, опубликованные вендорами по состоянию на 21 апреля 2026 года.