Kimi K3 ハブ（更新）： スペック・料金・API ID・切り替え判断 → /ja/kimi-k3。リリースタイムライン → /ja/kimi-k3-status。

方法論：インフラはモデルを予告する

モデルラボが出荷するものには2種類ある。ひとつはモデル本体——重み、ベンチマーク、リリースブログ。もうひとつははるかに静かだ：モデルを取り巻く実行インフラ。ツール呼び出し形式、コンテキスト圧縮機、スウォームスケジューラ、サンプリングのデフォルト値、CLIの人間工学。ほとんどの読者は、ベンチマーク表に向かう途中でこのレイヤーを読み飛ばす。

そうすべきではない。実行インフラは構築に費用がかかり、マーケティングには地味だ。ラボがそこへ投資するのは、それを必要とする特定の種類のモデルが来ることを知っているときに限られる。インフラは、それが構築された対象のモデルより6カ月早く出荷される。

これがK2.6を読み解くレンズだ。Terminal-Benchの数字はひとまず忘れてほしい。ハーネスの形状は、その上で動くことを意図されているものについて何を語っているか？

K2.6を超えて指し示す4つのシグナル

1. 12時間の実行エンベロープはK2.6には過剰設計だ

32B-activeのMoEは、K2.6の品質をもってしても、その価値を発揮するために12時間の自律エンベロープを必要としない。K2.6が達成する成果のほとんど——Zigランタイム、取引所コアの書き直し、Next.js生成——は30分から2時間のウィンドウに十分収まる。12時間という目標は、K2.6が単独で生産的にできることに合わせて調整されていない。それは、計画する余裕が与えられれば実質的により賢いモデルができることに合わせて調整されている。

長期的な実行は、基盤モデルの能力とともに超線形にスケールする。単一ステップで30%優れたモデルは、4,000ステップにわたって30%優れているわけではない——誤りが乗法的に積み重なるため、数倍優れているのだ。12時間のハーネスを今構築することは、実際にそれを満たすことができるモデルが来る場合にのみ報われる。

2. 300のサブエージェントはスループットの技ではなく、調整のトポロジーだ

明確に定義されたタスクを並列化するために300のワーカーを生成するわけではない。スーパーバイザーが問題を300の疎結合な部分に分解し、その出力を調整するほど賢い場合に、300のワーカーを生成する。スウォームアーキテクチャのボトルネックは常にスーパーバイザーの計画品質であり、ワーカーの生の速度ではない。

したがって、300エージェントのオーケストレーションへの投資はスーパーバイザーの品質への賭けだ——そしてスーパーバイザーは基盤モデルだ。Moonshotは今、スケジューリング、メッセージパッシング、調整の機構を構築しており、300エージェントの有能なスーパーバイザーになれるほど強力な基盤モデルをリリースする際に、周囲のシステムが書き直しを必要としないようにしている。

3. コンテキスト圧縮機はメモリの代替品だ

K2.6の自動コンテキスト圧縮は利便性として捉えられている——長い実行中に切り詰めを心配しなくていい。アーキテクチャ的に読めば、それは別のものだ：より大きなモデルがネイティブに持つ長期記憶の手動コード化された代替品。自分自身の履歴を圧縮して省略するのは、ワーキングメモリがボトルネックになっているときにすることだ。より強いインコンテキスト想起を持つ大きなモデルはこのスキャフォールディングをあまり必要としないが、K2.6の圧縮機は依然としてフォールバックパスとなり、それが公開するAPIサーフェス（何が要約され、何がリテラルとして保存されるか）は、それをまれにしか使用しないモデルとの前方互換性がある。

4. Anthropic API互換性は移行のランプだ

K2.6がAnthropicのAPIとワイヤー互換性を維持することは、通常Claude Codeユーザーの利便性として捉えられる。それはまた別のことでもある：ヘッドラインモデルが到着する前に、チームがMoonshotの実行レイヤーに標準化するための低摩擦パス。エコシステムの成果は、移行する価値のある将来のモデルがある場合にのみ報われる。行き止まりへの移行ランプは構築しない。

K3はおそらくどのような姿か

上記4つのシグナル、さらにK2.6のプレビューに先行したRedditリークから三角測量すると、K3の一貫した像が浮かび上がる。これはリークではなく、合理的な予測として扱ってほしい。

パラメータスケール：合計3〜4T、おそらく〜100B active

リークの「3〜4兆パラメータ」は自然に継続的なMoEアーキテクチャにマッピングされる——そのスケールの密なモデルは提供に費用がかかり、Moonshotのトレーニングスタック全体（MuonClip、384エキスパートルーティング）はMoEネイティブだ。エキスパート数を2〜3倍にしながら、activeパラメータをK2.6の32Bの約3倍にスケールするのが、最小のアーキテクチャ抵抗パスだ。96B〜128B activeの近辺を期待してほしい。

コンテキスト：1Mトークン、おそらく段階的なメモリを伴う

K2.6の262Kウィンドウと明示的な圧縮は、ラボがネイティブの百万トークンコンテキストを出荷するまで構築するワークアラウンドそのものだ。既存の圧縮機と組み合わせた1Mウィンドウは、長いエージェント実行に対して約4Mトークンの有効ワーキングメモリを与える——企業全体のコードベースとその履歴がコンテキストに収まる領域だ。

真のデルタ：スーパーバイザーの品質

K3の興味深いスケーリング次元は、パラメータあたりのベンチマークポイントではない。それはモデルが一貫して保持できる計画ツリーの深さだ。スーパーバイザーの役割でのK2.6は、4,000ステップにわたって300のワーカーを管理する。K3クラスのモデルは、それを数千のワーカーと数万のステップにまで押し上げるはずだ——多ければ多いほど良いからではなく、それが「小さな製品全体をエージェントに一晩外注する」が憧れではなく実用的になる領域だからだ。

K3がしなくていいこと

K2.6がすでに十分うまく処理しているため、K3が再証明する必要のないことがいくつかある：基盤K2重みのApache-2.0オープンさ、MLA注意、MuonClipトレーニングレシピ、Anthropic API互換性。これらは解決済みの決定だ。デルタはスケール、スーパーバイザー推論、そっておそらく真のマルチモーダルの飛躍にある——K2.5はマルチモーダルを導入し、K2.6はほとんど触れず、それは温存されている能力として読める。

ケイデンスのヒント

もうひとつ真剣に受け止める価値のあるシグナル：K2.6はプレビューからGAまで8日で移行した。以前のすべてのK2リリースは、プレビューサーフェシングと一般提供の間に数週間から数カ月あった。圧縮されたプレビューサイクルは、内部リリースバーが公開プレビューのずっと前にクリアされたことを意味する——つまりK2.6は何かのために保留されていた。最も妥当な何かは、実行レイヤーがより大きなモデルがその上で稼働する前にリアルワールドのテレメトリを持てるよう、本番環境にK2.6を先に置く必要があるK3タイムラインだ。

Moonshotの過去のケイデンスはメジャーリリース間で2〜3カ月だ。それが保たれれば、K3は2026年6〜7月のウィンドウに着地する。圧縮されたK2.6サイクルが新常態であれば、それよりも早いかもしれない。7月の日付はまた象徴的に好都合だ——オリジナルK2オープンソースリリースの1周年記念。ラボは認める以上に記念日を気にする。

この予測をどう活用するか

K2ラインを構築するチームへの3つの実用的な示唆：

今すぐKimi Code CLIとAnthropicと互換性のあるAPIに標準化せよ。 インフラは安定しており、基盤となるモデルはあなたの下で交換される。ワークフローがClude固有の特異な動作に依存しているなら、K3が着地した後ではなく前に移行せよ。
タスクを単一のプロンプトではなく、キューと計画ツリーの観点で設計し始めよ。 K2.6の実行レイヤーはこれに報いる。K3の実行レイヤーはそれを必要とする。2026年4月にまだターンごとにプロンプトしているチームは、7月にワークフローを書き直さなければならないだろう。
12時間のエンベロープをあなた自身のオブザーバビリティの強制機能として扱え。 エージェントが12時間実行できるなら、あなたはそれを見守ることができない。トレース、チェックポイント、計画レベルのレビューが必要だ——人間のコントラクターのために構築するのと同じツールセットだ。今それに投資すれば、K3のより長いエンベロープはリスクではなく空き容量になる。

本当のポイント

K2.6はそれ自体として強力で出荷可能なモデルだ。しかし、より示唆的なストーリーは、Moonshotが現在走っている馬には大きすぎるハーネスを構築したということだ。そのギャップは偶然ではない。それは床に影として投影された次のモデルの形だ。

ベンチマークではなく、インフラを見よ。それが次に来るものを教えてくれる。

この記事は分析と予測であり、リークではない。情報源：kimi.com/blog/kimi-k2-6のMoonshot AI公式K2.6リリース資料、2026年4月13日のK2.6 Code Previewロールアウト、Vercel、Factory.ai、CodeBuddyからのパートナーレポート、K2.6プレビューに先行したReddit r/LocalLLaMaコミュニティディスカッション。K3に関するすべての主張は公開シグナルからの推論であり、そのように読まれるべきだ。

K2.6はK3への滑走路：今日の実行レイヤーから次世代モデルを読み解く

方法論：インフラはモデルを予告する

K2.6を超えて指し示す4つのシグナル

1. 12時間の実行エンベロープはK2.6には過剰設計だ

2. 300のサブエージェントはスループットの技ではなく、調整のトポロジーだ

3. コンテキスト圧縮機はメモリの代替品だ

4. Anthropic API互換性は移行のランプだ

K3はおそらくどのような姿か

パラメータスケール：合計3〜4T、おそらく〜100B active

コンテキスト：1Mトークン、おそらく段階的なメモリを伴う

真のデルタ：スーパーバイザーの品質

K3がしなくていいこと

ケイデンスのヒント

この予測をどう活用するか

本当のポイント

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

関連記事