Kimi K2.6 正式リリース:エージェント型コーディング時代が本番稼働へ
プレビューからGAへ、わずか8日間
2026年4月13日、Moonshot AIはベータテスターがKimi K2.6 Code Previewを使用していることをメールで静かに確認しました。その8日後、同社は「Preview」というラベルを外し、Kimi K2.6をKimi.com、Kimiアプリ、公式API、Kimi Code CLIにわたって一般提供モデルとして出荷しました。
これはK2シリーズの歴史の中で最も速いプレビューからGAへの移行の一つです。内部の品質基準がすでに満たされており、パートナー評価(Vercel、Factory.ai、CodeBuddy)が検証に十分な期間実施されていたことを示すシグナルです。2025年7月のオープンソースデビュー以来K2ロードマップを追ってきたチームにとって、K2.6は「エージェント型コーディング」がデモからインフラへと変わるバージョンです。
K2.5との実際の違い
見出しは単一のベンチマーク数値ではありません。それは継続時間、幅、そして協調性です。K2.5は数百ステップにわたってコーディングタスクを維持できました。K2.6は12時間と4,000の協調ステップを、最大300のサブエージェントによる単一スウォームで維持できるよう設計されています。
パートナーが報告したK2.5との差分:
| パートナー | 報告された改善 |
|---|---|
| CodeBuddy | コード生成精度+12%、長文脈安定性+18% |
| Vercel | 社内Next.jsベンチマークで50%超の改善 |
| Factory.ai | 両評価ベンチマークで+15% |
これらはMoonshotのマーケティング数値ではなく、独立したサードパーティの数字です。だからこそ重要なのです。
公開ベンチマークのハイライト
- Terminal-Bench 2.0: 66.7%
- SWE-Bench Pro: 58.6%
- MathVision(Pythonツール使用時): 93.2%
SWE-Bench Proは、簡単な「1ファイル修正」問題を除外したSWE-Benchの難しいバージョンです。そのため58.6%は、K2.5がSWE-Bench Verifiedで報告した76.8%と直接比較できません。Proを新しい正直な上限として読んでください。
12時間の実行を可能にするアーキテクチャ
K2.6は、K2シリーズが2025年7月から継承してきた兆パラメータMoEバックボーン(総計1T / アクティブ32B / トークンあたり8つが活性化される384エキスパート、MLA attention、SwiGLU、MuonClip安定化トレーニング)を維持しています。新しいのはその周囲の実行レイヤーです:
- コンテキストウィンドウを262,144トークンに拡張。 K2.5 Code Previewの256Kから拡大され、中規模モノレポとそのテスト出力、エージェント自身のスクラッチパッドをトランケーションによるドリフトなしに保持できます。
- 自動コンテキスト圧縮。 ウィンドウに近づくと、モデルは自身の履歴を要約・省略します。これにより12時間のセッションが9時間目にロスの多い想起で崩壊することを防ぎます。
- エージェントスウォームオーケストレーション。 最大300のサブエージェントを生成、スケジュール、調整するためのネイティブプリミティブ。これが4,000ステップの協調数値を意味あるものにする機能です。単一エージェントは4,000のツール呼び出しを一貫した計画で実行することは現実的にはできませんが、スーパーバイザー+ワーカーのトポロジーならそれが可能です。
- プロアクティブな自律性。 K2.6はタスクキューに対して24時間365日稼働するよう調整されており、人間のターンを待ちません。重要な最適化は生のスループットではなく、「行き詰まった」と認識して再計画または昇格させる能力であり、進捗を幻覚で補うことをしません。
Moonshotが実際に出荷した3つのユースケース
Kimiチームはリリースと共に3つのリファレンス実行を公開しました。マーケティングとしてではなく、存在証明として読む価値があります。
1. Zigによる推論最適化
K2.6はQwen3.5-0.8BをZigでローカルにデプロイし、秒間約193トークンを達成しました。これは同じハードウェアでのLM Studioのリファレンスパスより約20%高速です。興味深いのはスループット数値ではなく、モデルがPythonやRustと比べてトレーニングコーパスが極めて小さいZigを選択し、それでも機能する低レベルランタイムを生成したことです。これはシステムワークにおいて重要な能力の最前線です。
2. 実際のコードベースでのパフォーマンスエンジニアリング
オープンソースのexchange-core金融マッチングエンジンが与えられたとき、K2.6は中央値スループットを185%改善しました。この作業には、不慣れなJavaコードベースの読み込み、ホットパスの特定、マッチングの不変条件を壊さずにそれらを書き直すことが含まれていました。これは「新しいプロジェクトにあたるシニアエンジニア」の作業負荷であり、以前のほとんどのモデルが暗黙のうちに失敗するものです。それらは正確性を後退させる表面上もっともらしいdiffを生成します。
3. デザインからコードへのフルスタック生成
K2.6はアニメーション付きの完全なフロントエンドインターフェースを生成し、それを認証とデータベースに接続します。VercelのNext.jsベンチマーク50%超の改善はこれに直結しています。App Router、Server Components、および周辺エコシステムは、ほとんどのモデルがまだAPIを幻覚する領域であり、K2.6はそのギャップのほとんどを埋めたようです。
K2タイムラインにおけるK2.6の位置づけ
| バージョン | リリース | 主要機能 |
|---|---|---|
| Kimi K2 | 2025年7月 | 兆パラメータMoE、Apache 2.0オープンソース |
| K2-Instruct-0905 | 2025年9月 | SWE-bench Verifiedで69.2% |
| K2-Thinking | 2025年11月 | 思考の連鎖推論 |
| K2.5 | 2026年1月 | マルチモーダル + Agent Swarm v1 |
| K2.6 Code Preview | 2026年4月13日 | 長期コーディングベータ |
| K2.6 (GA) | 2026年4月21日 | 12時間実行、300エージェントスウォーム、フルスタック生成 |
Moonshotはほぼ1年間、2〜3ヶ月の主要アップデートペースを維持しています。K2.6はプレビューとGAの間隔が月単位ではなく日単位で測られる最初のリリースです。これは次のリリース(K3)が同じ圧縮されたスケジュールで到着する可能性を示唆しており、重要な意味を持ちます。
はじめ方
K2.6は本日4つの場所でライブです:
- Kimi.comとKimиアプリ — エージェントスウォーム実行を対話的に試す最も速い方法。
- 公式API — デフォルトサンプリングは
temperature=1.0, top_p=1.0。反射的にこれらを下げないでください。エージェントループはこの設定でチューニングされています。 - Kimi Code CLI — 長期コーディングの推奨エントリーポイント。ツール呼び出し、ファイルシステムアクセス、スウォームスーパーバイザーをデフォルトで接続します。
- 料金 — 現在のティアは
kimi.com/membership/pricingを参照してください。長い自律実行はかなりのトークンを消費します。リクエスト単位ではなく、セッション単位で予算を組んでください。
長期実行のための実践的ガイダンス
- 質問ではなくキューを渡す。 K2.6はプロアクティブな操作のためにチューニングされています。引き出せるタスクリストは単一のプロンプトより優れています。
- 圧縮を任せる。 ターン間でコンテキストを手動でトリミングしないでください。組み込みコンプレッサーは必要な不変条件を保持するのがより得意です。
- プランレベルでスウォームを監視する。 300のサブエージェントをオーケストレーションしている場合は、すべてのツール呼び出しではなく計画をレビューしてください。モデルのToken Enforcerが呼び出し形式の正確さを処理します。あなたの仕事は方向性のレビューです。
- Claudeから段階的に移行する。 APIはAnthropic互換のままなので、既存のClaude Codeワークフローはプロンプトを変える前にベースURLを変更できます。
K3の噂が意味すること
K2.6に先行したRedditのリークは、フロンティアアメリカモデルの規模に匹敵するべく3〜4兆パラメータを目標とするKimi K3についても言及していました。K2.6のGAリリースはその噂に信憑性を与えます。12時間の実行エンベロープと300エージェントスウォームは、より大きなベースモデルにクリーンにスケールする機能であり、Moonshotはそれを活用するより大きなモデルが来なければ実行レイヤーのインフラに投資しないでしょう。
K2.6はエンドポイントではありません。K3が登場したときに実行できる場所を作るためのハーネスです。
出典:kimi.com/blog/kimi-k2-6のMoonshot AI公式リリースノート、CodeBuddy、Vercel、Factory.aiのパートナー声明、および以前のK2シリーズ技術レポート。ベンチマーク数値は2026年4月21日時点のベンダー公開数値を反映しています。