Kimi K2.5 Officiellement Lancé : Évolution Complète de la Vision Native et de l'Agent Swarm
Kimi K2.5 Officiellement Lancé : Évolution Complète de la Vision Native et de l'Agent Swarm
Nouveaux Sommets de la Multimodalité Native
Moonshot AI a officiellement lancé Kimi K2.5 aujourd'hui. Il ne s'agit pas seulement d'une itération de version, mais d'un pas majeur vers l'Intelligence Artificielle Générale (AGI). S'appuyant sur Kimi K2, K2.5 a fait l'objet d'un pré-entraînement continu sur environ 15 billions (15T) de tokens mixtes vision et texte pour construire une architecture purement Native Multimodal.

Figure : Comparaison de Kimi K2.5 et Claude Opus 4.5 sur les capacités de base, démontrant sa grande force dans les arènes de la multimodalité et du raisonnement.
Cette percée architecturale confère à K2.5 une perception extrêmement forte du monde physique, permettant des mises à niveau disruptives dans trois dimensions majeures : Coding with Vision, Agent Swarm et Office Productivity.
1. Coding with Vision : Ce que vous voyez est ce que vous codez
Kimi K2.5 est officiellement défini comme le "modèle de codage open-source le plus puissant à ce jour", montrant une domination particulière dans le domaine du développement frontend.
- Interaction Visuelle vers Code : K2.5 peut convertir directement de simples conversations en interfaces frontend complètes, mettant en œuvre avec précision des mises en page interactives et des effets d'animation riches (tels que les déclencheurs de défilement).
- Vidéo comme Code : Au-delà des images statiques, K2.5 peut reconstruire des sites web en raisonnant sur le contenu vidéo. Par exemple, il peut regarder une vidéo d'interactions sur un site web, puis restaurer la logique de code et le style sous-jacents.
- Pré-entraînement Conjoint Vision-Texte à Grande Échelle : Cette capacité découle d'un pré-entraînement conjoint à grande échelle, qui synchronise l'amélioration de la compréhension visuelle et des capacités de codage textuel, éliminant la déconnexion entre vision et logique présente dans les modèles traditionnels.
Lors des évaluations internes, K2.5 a résolu des problèmes complexes de recherche de chemin dans des labyrinthes, trouvant le chemin le plus court dans un labyrinthe de 4,5 mégapixels à l'aide de l'algorithme BFS et générant un processus de solution visualisé, prouvant ainsi ses puissantes capacités de raisonnement visuel.
2. Agent Swarm : L'Esprit de Ruche des Agents (Aperçu de Recherche)
C'est la fonctionnalité la plus "science-fiction" de cette mise à jour. Kimi K2.5 a publié l'aperçu de recherche Agent Swarm, marquant un changement de paradigme dans l'IA, passant du "combat de soldat unique" à la "collaboration de légion".
- Essaim Auto-Commandé : K2.5 peut commander de manière autonome jusqu'à 100 Sub-agents.
- Exécution Simultanée Massive : Lors du traitement de tâches complexes, il peut orchestrer jusqu'à 1 500 étapes de coordination.
- Multiplication de l'Efficacité : Par rapport au mode agent unique, le mode Swarm réduit le temps d'exécution de bout en bout de 4,5 fois.
- Technologie PARL : Le cœur de cette technologie est le Parallel-Agent Reinforcement Learning (PARL), où l'Orchestrator décompose les tâches en sous-tâches parallèles.
Par exemple, dans une tâche visant à "trouver 100 créateurs de premier plan dans des domaines de niche", K2.5 Swarm peut créer automatiquement 100 sous-agents chercheurs pour effectuer des recherches en parallèle, agrégeant finalement les résultats dans une feuille de calcul structurée contenant 300 profils avec une efficacité étonnante.
3. Productivité Bureautique Ultime
K2.5 apporte des capacités d'agent dans des scénarios réels de travail du savoir, capable de gérer des entrées bureautiques à haute densité et à grande échelle.
- Sortie Polyvalente : Génère directement des documents professionnels, des feuilles de calcul, des PDF et des diapositives de présentation.
- Traitement de Contexte Ultra-Long : Gère facilement des documents de plus de 100 pages ou la rédaction de mémoires de plus de 10 000 mots.
- Opérations Complexes : Prend en charge l'ajout de commentaires dans Word, la création de tableaux croisés dynamiques dans Excel et l'écriture de formules LaTeX dans des PDF.
Dans le benchmark interne AI Office, les performances de K2.5 se sont améliorées de 59,3 % par rapport au modèle de pensée de la génération précédente (K2 Thinking), réalisant véritablement le saut du "jouet" à l'"outil".
Domination des Performances : Dépassement Global
Dans divers benchmarks faisant autorité, K2.5 a montré une force qui rivalise ou surpasse même les meilleurs modèles à source fermée possédant des "modes de pensée" (y compris Gemini 3 Pro, GPT-5.2, Claude Opus 4.5, etc.) :
| Benchmark | Domaine | Points Forts de Performance |
|---|---|---|
| HLE-Full | Raisonnement | Plus fort que DeepSeek-V3.2 |
| SWE-Bench Verified | Programmation | Taux de résolution de 80,9 %, dépassant les limites de l'open-source |
| MMMU Pro | Vision | Capacité de compréhension multimodale visuelle de premier plan, proche du niveau de Claude Opus 4.5 |
| BrowseComp | Recherche | Amélioration significative des performances en mode Agent Swarm |
Comment en faire l'expérience
Actuellement, Kimi K2.5 a débarqué sur les plateformes suivantes, proposant quatre modes (Instant, Thinking, Agent, Agent Swarm) :
- Version Web Kimi.com
- Kimi 智能助手 App (Application Smart Assistant)
- Kimi 开放平台 (API Open Platform)
- Kimi Code : Un tout nouvel outil de code pour terminal prenant en charge l'intégration avec VSCode, Cursor, etc.
Note : Le mode Agent Swarm est actuellement en phase bêta et propose des essais gratuits aux utilisateurs premium.
Cette vague de mises à jour élève sans aucun doute la dimension de la concurrence en IA du simple "dialogue textuel" aux nouveaux sommets de l'"action visuelle" et de l'"intelligence en essaim". Pour les développeurs et les utilisateurs professionnels, Kimi K2.5 offre non seulement un modèle plus fort, mais un tout nouvel ensemble d'armes pour résoudre des problèmes complexes.