Хаб Kimi K3 (обновлено): Specs, цена, API id и когда переключаться → /ru/kimi-k3. Timeline релиза → /ru/kimi-k3-status.

Метод: инфраструктура предсказывает модели

Лаборатории публикуют два вида вещей. Первое — сама модель: веса, бенчмарки, пост в блоге о релизе. Второе — нечто куда более тихое: инфраструктура выполнения вокруг модели. Форматы вызова инструментов, компрессоры контекста, планировщики роёв, настройки сэмплинга по умолчанию, эргономика CLI. Большинство читателей пробегают этот слой по пути к таблице бенчмарков.

И зря. Инфраструктура выполнения дорого стоит в разработке и скучно продаётся. Лаборатории вкладываются в неё только тогда, когда знают: грядёт конкретный тип модели, которой она понадобится. Инфраструктура появляется за шесть месяцев до модели, для которой создана.

Именно через эту призму и нужно читать K2.6. Забудьте на минуту о Terminal-Bench. Что говорит нам форма обвязки о том, что в ней должно работать?

Четыре сигнала в K2.6, указывающие за его пределы

1. Конверт выполнения на 12 часов избыточен для K2.6

MoE с 32B активных параметров, даже при качестве K2.6, не нуждается в автономном конверте на 12 часов для раскрытия своей ценности. Большинство побед K2.6 — Zig runtime, переписывание ядра биржи, генерация Next.js — легко умещаются в окно от 30 минут до 2 часов. Цель в 12 часов откалибрована не под то, что K2.6 способен продуктивно делать самостоятельно; она откалибрована под то, что мог бы делать существенно более умный модель, если дать ему пространство для планирования.

Выполнение на длинных горизонтах масштабируется сверхлинейно от базовых способностей модели. Модель, которая на 30% лучше на каждом отдельном шаге, не будет на 30% лучше на 4 000 шагов — она будет лучше в несколько раз, потому что ошибки накапливаются мультипликативно. Строить конверт на 12 часов сейчас имеет смысл только если ожидается модель, которая действительно сможет его заполнить.

2. 300 суб-агентов — это топология координации, а не трюк для увеличения пропускной способности

300 воркеров не запускают ради параллелизации чётко определённой задачи. 300 воркеров запускают, когда супервизор достаточно умён, чтобы разложить задачу на 300 слабосвязанных частей и свести их результаты воедино. Узкое место в архитектурах роёв — всегда качество планирования супервизора, а не сырая скорость воркеров.

Значит, инвестиция в оркестрацию 300 агентов — это ставка на качество супервизора, а супервизором является базовая модель. Moonshot строит сейчас машинерию планирования, передачи сообщений и согласования — чтобы, когда они выпустят базовую модель достаточной силы для роли компетентного супервизора 300 агентов, окружающая система не нуждалась в переписывании.

3. Компрессор контекста — это заменитель памяти

Автоматическое сжатие контекста K2.6 подаётся как удобство — не беспокойтесь об усечении при длинных запусках. Читая это архитектурно, видишь иное: написанный вручную заменитель долгосрочной памяти, которая была бы у более крупной модели нативно. Компрессия и элизия собственной истории — это то, что делают, когда рабочая память является узким местом. Большая модель с более сильным in-context recall нуждается в меньшем количестве такой обвязки, но компрессор K2.6 всё равно останется запасным путём, а API-поверхность, которую он предоставляет (что суммируется, что сохраняется дословно), совместима с моделью, которая использует его редко.

4. Совместимость с API Anthropic — это въездная рампа для миграции

То, что K2.6 остаётся проводносовместимым с API Anthropic, обычно преподносится как удобство для пользователей Claude Code. Но это ещё и кое-что другое: путь с малым трением для команд, чтобы стандартизироваться на слое выполнения Moonshot до прихода флагманской модели. Экосистемная игра окупается только если есть будущая модель, к которой стоит мигрировать. Въездные рампы в тупик не строят.

Каким, вероятно, будет K3

Триангулируя из четырёх сигналов выше плюс утечку на Reddit, предшествовавшую превью K2.6, вырисовывается цельная картина K3. Воспринимайте это как обоснованный прогноз, а не как утечку.

Масштаб параметров: 3–4 триллиона всего, вероятно ~100B активных

Упомянутые в утечке «3–4 триллиона параметров» естественно соответствуют продолжению архитектуры MoE — плотные модели такого масштаба обслуживать непомерно дорого, а весь обучающий стек Moonshot (MuonClip, маршрутизация на 384 эксперта) нативно MoE. Удвоение или утроение числа экспертов при масштабировании активных параметров примерно до 3x от 32B K2.6 — это путь наименьшего архитектурного сопротивления. Ожидайте что-то в районе 96B–128B активных.

Контекст: 1M токенов, возможно с многоуровневой памятью

Окно K2.6 в 262K плюс явное сжатие — это именно тот обходной путь, который лаборатория строит, пока ждёт нативного контекста на миллион токенов. Окно в 1M в сочетании с существующим компрессором даёт примерно 4M токенов эффективной рабочей памяти для длинных агентских запусков — режим, при котором полная кодовая база компании вместе с её историей умещается в контексте.

Настоящая дельта: качество супервизора

Интересное измерение масштабирования для K3 — не количество баллов бенчмарка на параметр. Это глубина дерева планов, которое модель может удерживать когерентным. K2.6 в роли супервизора управляет 300 воркерами на протяжении 4 000 шагов. Модель класса K3 должна довести это до нескольких тысяч воркеров и десятков тысяч шагов — не потому что больше — лучше, а потому что именно в этом режиме «отдать разработку целого небольшого продукта агенту на ночь» становится практикой, а не мечтой.

Что K3 не нужно доказывать

Несколько вещей, с которыми K2.6 уже справляется достаточно хорошо, чтобы K3 не нужно было их переподтверждать: открытость Apache-2.0 базовых весов K2, механизм внимания MLA, рецепт обучения MuonClip, совместимость с API Anthropic. Это принятые решения. Дельта будет в масштабе, рассуждениях супервизора и, вероятно, в настоящем мультимодальном прыжке — K2.5 ввёл мультимодальность, K2.6 едва её коснулся, что выглядит как возможность, придерживаемая в резерве.

Подсказка ритма

Ещё один сигнал, заслуживающий внимания: K2.6 прошёл путь от превью до GA за восемь дней. Каждый предыдущий релиз K2 имел недели, а то и месяцы между появлением превью и общей доступностью. Сжатый цикл превью означает, что внутренняя планка релиза была взята задолго до публичного превью — то есть K2.6 придерживали ради чего-то. Наиболее правдоподобное «что-то» — это временной план K3, которому нужен K2.6 в продакшене сначала, чтобы слой выполнения имел реальную телеметрию до того, как поверх него заработает более крупная модель.

Исторический ритм Moonshot — 2–3 месяца между крупными релизами. Если это сохранится, K3 приземлится в окне июнь–июль 2026 года. Если сжатый цикл K2.6 — новая норма, может быть и раньше. Дата июля также символически удобна — годовщина оригинального open-source релиза K2. Лаборатории дорожат годовщинами больше, чем признают.

Что делать с этим прогнозом

Три практических вывода для команд, строящих на линейке K2:

Стандартизируйтесь на Kimi Code CLI и совместимом с Anthropic API прямо сейчас. Инфраструктура стабильна; нижележащая модель будет заменена под вами. Если ваш рабочий процесс зависит от идиосинкратичного поведения, специфичного для Claude, портируйте его до прихода K3, а не после.
Начните проектировать задачи в терминах очередей и деревьев планов, а не одиночных промптов. Слой выполнения K2.6 поощряет это; слой выполнения K3 будет требовать. Команды, которые в апреле 2026 всё ещё промптируют пошагово, должны будут переписать свои рабочие процессы в июле.
Относитесь к конверту на 12 часов как к принуждающей функции для вашей собственной наблюдаемости. Если агент может работать 12 часов, вы не можете за ним следить. Вам нужны трейсы, чекпоинты и проверка на уровне плана — тот же инструментарий, который вы бы построили для живого подрядчика. Инвестируйте в это сейчас, и более длинный конверт K3 станет свободными мощностями, а не риском.

Настоящий вывод

K2.6 — сильная, готовая к выпуску модель сама по себе. Но более показательная история в том, что Moonshot построил систему слишком большую для лошади, которая сейчас в ней бежит. Этот разрыв — не случайность. Это форма следующей модели, отброшенная тенью на пол.

Следите за инфраструктурой, а не за бенчмарками. Она скажет вам, что придёт следующим.

Эта статья — анализ и прогноз, а не утечка. Источники: официальные материалы релиза K2.6 от Moonshot AI на kimi.com/blog/kimi-k2-6, развёртывание K2.6 Code Preview 13 апреля 2026 года, отчёты партнёров от Vercel, Factory.ai и CodeBuddy, а также обсуждение сообщества Reddit r/LocalLLaMA, предшествовавшее превью K2.6. Все утверждения о K3 являются умозаключениями из публичных сигналов и должны восприниматься соответствующим образом.

K2.6 — взлётная полоса для K3: как читать следующую модель в нынешнем слое выполнения

Метод: инфраструктура предсказывает модели

Четыре сигнала в K2.6, указывающие за его пределы

1. Конверт выполнения на 12 часов избыточен для K2.6

2. 300 суб-агентов — это топология координации, а не трюк для увеличения пропускной способности

3. Компрессор контекста — это заменитель памяти

4. Совместимость с API Anthropic — это въездная рампа для миграции

Каким, вероятно, будет K3

Масштаб параметров: 3–4 триллиона всего, вероятно ~100B активных

Контекст: 1M токенов, возможно с многоуровневой памятью

Настоящая дельта: качество супервизора

Что K3 не нужно доказывать

Подсказка ритма

Что делать с этим прогнозом

Настоящий вывод

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Похожие статьи