プレビューからGAへ、わずか8日間

2026年4月13日、Moonshot AIはベータテスターがKimi K2.6 Code Previewを使用していることをメールで静かに確認しました。その8日後、同社は「Preview」というラベルを外し、Kimi K2.6をKimi.com、Kimiアプリ、公式API、Kimi Code CLIにわたって一般提供モデルとして出荷しました。

これはK2シリーズの歴史の中で最も速いプレビューからGAへの移行の一つです。内部の品質基準がすでに満たされており、パートナー評価（Vercel、Factory.ai、CodeBuddy）が検証に十分な期間実施されていたことを示すシグナルです。2025年7月のオープンソースデビュー以来K2ロードマップを追ってきたチームにとって、K2.6は「エージェント型コーディング」がデモからインフラへと変わるバージョンです。

K2.5との実際の違い

見出しは単一のベンチマーク数値ではありません。それは継続時間、幅、そして協調性です。K2.5は数百ステップにわたってコーディングタスクを維持できました。K2.6は12時間と4,000の協調ステップを、最大300のサブエージェントによる単一スウォームで維持できるよう設計されています。

パートナーが報告したK2.5との差分：

パートナー	報告された改善
CodeBuddy	コード生成精度+12%、長文脈安定性+18%
Vercel	社内Next.jsベンチマークで50%超の改善
Factory.ai	両評価ベンチマークで+15%

これらはMoonshotのマーケティング数値ではなく、独立したサードパーティの数字です。だからこそ重要なのです。

公開ベンチマークのハイライト

Terminal-Bench 2.0: 66.7%
SWE-Bench Pro: 58.6%
MathVision（Pythonツール使用時）: 93.2%

SWE-Bench Proは、簡単な「1ファイル修正」問題を除外したSWE-Benchの難しいバージョンです。そのため58.6%は、K2.5がSWE-Bench Verifiedで報告した76.8%と直接比較できません。Proを新しい正直な上限として読んでください。

12時間の実行を可能にするアーキテクチャ

K2.6は、K2シリーズが2025年7月から継承してきた兆パラメータMoEバックボーン（総計1T / アクティブ32B / トークンあたり8つが活性化される384エキスパート、MLA attention、SwiGLU、MuonClip安定化トレーニング）を維持しています。新しいのはその周囲の実行レイヤーです：

コンテキストウィンドウを262,144トークンに拡張。 K2.5 Code Previewの256Kから拡大され、中規模モノレポとそのテスト出力、エージェント自身のスクラッチパッドをトランケーションによるドリフトなしに保持できます。
自動コンテキスト圧縮。 ウィンドウに近づくと、モデルは自身の履歴を要約・省略します。これにより12時間のセッションが9時間目にロスの多い想起で崩壊することを防ぎます。
エージェントスウォームオーケストレーション。 最大300のサブエージェントを生成、スケジュール、調整するためのネイティブプリミティブ。これが4,000ステップの協調数値を意味あるものにする機能です。単一エージェントは4,000のツール呼び出しを一貫した計画で実行することは現実的にはできませんが、スーパーバイザー＋ワーカーのトポロジーならそれが可能です。
プロアクティブな自律性。 K2.6はタスクキューに対して24時間365日稼働するよう調整されており、人間のターンを待ちません。重要な最適化は生のスループットではなく、「行き詰まった」と認識して再計画または昇格させる能力であり、進捗を幻覚で補うことをしません。

Moonshotが実際に出荷した3つのユースケース

Kimiチームはリリースと共に3つのリファレンス実行を公開しました。マーケティングとしてではなく、存在証明として読む価値があります。

1. Zigによる推論最適化

K2.6はQwen3.5-0.8BをZigでローカルにデプロイし、秒間約193トークンを達成しました。これは同じハードウェアでのLM Studioのリファレンスパスより約20%高速です。興味深いのはスループット数値ではなく、モデルがPythonやRustと比べてトレーニングコーパスが極めて小さいZigを選択し、それでも機能する低レベルランタイムを生成したことです。これはシステムワークにおいて重要な能力の最前線です。

2. 実際のコードベースでのパフォーマンスエンジニアリング

オープンソースのexchange-core金融マッチングエンジンが与えられたとき、K2.6は中央値スループットを185%改善しました。この作業には、不慣れなJavaコードベースの読み込み、ホットパスの特定、マッチングの不変条件を壊さずにそれらを書き直すことが含まれていました。これは「新しいプロジェクトにあたるシニアエンジニア」の作業負荷であり、以前のほとんどのモデルが暗黙のうちに失敗するものです。それらは正確性を後退させる表面上もっともらしいdiffを生成します。

3. デザインからコードへのフルスタック生成

K2.6はアニメーション付きの完全なフロントエンドインターフェースを生成し、それを認証とデータベースに接続します。VercelのNext.jsベンチマーク50%超の改善はこれに直結しています。App Router、Server Components、および周辺エコシステムは、ほとんどのモデルがまだAPIを幻覚する領域であり、K2.6はそのギャップのほとんどを埋めたようです。

K2タイムラインにおけるK2.6の位置づけ

バージョン	リリース	主要機能
Kimi K2	2025年7月	兆パラメータMoE、Apache 2.0オープンソース
K2-Instruct-0905	2025年9月	SWE-bench Verifiedで69.2%
K2-Thinking	2025年11月	思考の連鎖推論
K2.5	2026年1月	マルチモーダル + Agent Swarm v1
K2.6 Code Preview	2026年4月13日	長期コーディングベータ
K2.6 (GA)	2026年4月21日	12時間実行、300エージェントスウォーム、フルスタック生成

Moonshotはほぼ1年間、2〜3ヶ月の主要アップデートペースを維持しています。K2.6はプレビューとGAの間隔が月単位ではなく日単位で測られる最初のリリースです。これは次のリリース（K3）が同じ圧縮されたスケジュールで到着する可能性を示唆しており、重要な意味を持ちます。

はじめ方

K2.6は本日4つの場所でライブです：

Kimi.comとKimиアプリ — エージェントスウォーム実行を対話的に試す最も速い方法。
公式API — デフォルトサンプリングはtemperature=1.0, top_p=1.0。反射的にこれらを下げないでください。エージェントループはこの設定でチューニングされています。
Kimi Code CLI — 長期コーディングの推奨エントリーポイント。ツール呼び出し、ファイルシステムアクセス、スウォームスーパーバイザーをデフォルトで接続します。
料金 — 現在のティアはkimi.com/membership/pricingを参照してください。長い自律実行はかなりのトークンを消費します。リクエスト単位ではなく、セッション単位で予算を組んでください。

長期実行のための実践的ガイダンス

質問ではなくキューを渡す。 K2.6はプロアクティブな操作のためにチューニングされています。引き出せるタスクリストは単一のプロンプトより優れています。
圧縮を任せる。 ターン間でコンテキストを手動でトリミングしないでください。組み込みコンプレッサーは必要な不変条件を保持するのがより得意です。
プランレベルでスウォームを監視する。 300のサブエージェントをオーケストレーションしている場合は、すべてのツール呼び出しではなく計画をレビューしてください。モデルのToken Enforcerが呼び出し形式の正確さを処理します。あなたの仕事は方向性のレビューです。
Claudeから段階的に移行する。 APIはAnthropic互換のままなので、既存のClaude Codeワークフローはプロンプトを変える前にベースURLを変更できます。

K3の噂が意味すること

K2.6に先行したRedditのリークは、フロンティアアメリカモデルの規模に匹敵するべく3〜4兆パラメータを目標とするKimi K3についても言及していました。K2.6のGAリリースはその噂に信憑性を与えます。12時間の実行エンベロープと300エージェントスウォームは、より大きなベースモデルにクリーンにスケールする機能であり、Moonshotはそれを活用するより大きなモデルが来なければ実行レイヤーのインフラに投資しないでしょう。

K2.6はエンドポイントではありません。K3が登場したときに実行できる場所を作るためのハーネスです。

出典：kimi.com/blog/kimi-k2-6のMoonshot AI公式リリースノート、CodeBuddy、Vercel、Factory.aiのパートナー声明、および以前のK2シリーズ技術レポート。ベンチマーク数値は2026年4月21日時点のベンダー公開数値を反映しています。

Kimi K2.6 正式リリース：エージェント型コーディング時代が本番稼働へ

プレビューからGAへ、わずか8日間

K2.5との実際の違い

公開ベンチマークのハイライト

12時間の実行を可能にするアーキテクチャ

Moonshotが実際に出荷した3つのユースケース

1. Zigによる推論最適化

2. 実際のコードベースでのパフォーマンスエンジニアリング

3. デザインからコードへのフルスタック生成

K2タイムラインにおけるK2.6の位置づけ

はじめ方

長期実行のための実践的ガイダンス

K3の噂が意味すること

Popular Kimi K2 paths

Kimi K2.7 Code

Kimi Code

Kimi Code guide

Kimi K3 Status

関連記事