Lanzamiento Oficial de Kimi K2.5: Evolución Completa de Visión Nativa y Enjambre de Agentes
Lanzamiento Oficial de Kimi K2.5: Evolución Completa de Visión Nativa y Enjambre de Agentes
Nuevas Alturas de Multimodalidad Nativa
Moonshot AI ha lanzado oficialmente hoy Kimi K2.5. No es solo una iteración de versión, sino un paso firme hacia la Inteligencia Artificial General (AGI). Basado en Kimi K2, K2.5 se sometió a un preentrenamiento continuo en alrededor de 15 billones (15T) de tokens mixtos de visión y texto para construir una arquitectura puramente Multimodal Nativa.

Figura: Comparación de Kimi K2.5 y Claude Opus 4.5 en capacidades básicas, demostrando su gran fortaleza en las arenas de multimodalidad y razonamiento.
Este avance arquitectónico dota a K2.5 de una percepción extremadamente fuerte del mundo físico, permitiendo actualizaciones disruptivas en tres dimensiones principales: Programación con Visión (Coding with Vision), Enjambre de Agentes (Agent Swarm) y Productividad de Oficina (Office Productivity).
1. Programación con Visión: Lo que ves es lo que codificas
Kimi K2.5 se define oficialmente como el "modelo de programación de código abierto más fuerte hasta la fecha", mostrando un dominio particular en el campo del desarrollo frontend.
- Interacción Visual a Código: K2.5 puede convertir directamente conversaciones simples en interfaces frontend completas, implementando con precisión diseños interactivos y ricos efectos de animación (como activadores de desplazamiento).
- Video como Código: Más allá de las imágenes estáticas, K2.5 puede reconstruir sitios web razonando sobre contenido de video. Por ejemplo, puede ver un video de interacciones en un sitio web y luego restaurar la lógica de código y el estilo subyacentes.
- Preentrenamiento Conjunto Visión-Texto a Gran Escala: Esta capacidad proviene del preentrenamiento conjunto a gran escala, que sincroniza la mejora de la comprensión visual y las capacidades de codificación de texto, eliminando la desconexión entre visión y lógica que se encuentra en los modelos tradicionales.
En evaluaciones internas, K2.5 resolvió problemas complejos de búsqueda de caminos en laberintos, encontrando el camino más corto en un laberinto de 4.5 megapíxeles utilizando el algoritmo BFS y generando un proceso de solución visualizado, demostrando sus poderosas capacidades de razonamiento visual.
2. Enjambre de Agentes: La Mente Colmena de los Agentes (Vista Previa de Investigación)
Esta es la característica más "de ciencia ficción" de esta actualización. Kimi K2.5 lanzó la vista previa de investigación Agent Swarm, marcando un cambio de paradigma en la IA de "combate de un solo soldado" a "colaboración de legión".
- Enjambre Autocomandado: K2.5 puede comandar de forma autónoma hasta 100 Subagentes.
- Ejecución Simultánea Masiva: Al procesar tareas complejas, puede orquestar hasta 1500 pasos de coordinación.
- Multiplicación de la Eficiencia: En comparación con el modo de un solo agente, el modo Enjambre reduce el tiempo de ejecución de extremo a extremo en 4.5 veces.
- Tecnología PARL: El núcleo de esto es el Aprendizaje por Refuerzo de Agentes Paralelos (PARL), donde el Orquestador descompone las tareas en subtareas paralelas.
Por ejemplo, en una tarea para "encontrar 100 creadores principales en campos de nicho", K2.5 Swarm puede crear automáticamente 100 subagentes de investigación para buscar en paralelo, agregando finalmente los resultados en una hoja de cálculo estructurada que contiene 300 perfiles con una eficiencia asombrosa.
3. Productividad de Oficina Definitiva
K2.5 lleva las capacidades de los agentes a escenarios reales de trabajo del conocimiento, capaz de manejar entradas de oficina de alta densidad y gran escala.
- Salida Versátil: Genera directamente documentos profesionales, hojas de cálculo, PDF y diapositivas de presentación.
- Procesamiento de Contexto Ultra Largo: Maneja fácilmente documentos de más de 100 páginas o la redacción de informes de más de 10,000 palabras.
- Operaciones Complejas: Admite agregar comentarios en Word, crear tablas dinámicas en Excel y escribir fórmulas LaTeX en PDF.
En el benchmark interno AI Office, el rendimiento de K2.5 mejoró en un 59.3% en comparación con el modelo de pensamiento de la generación anterior (K2 Thinking), logrando verdaderamente el salto de "juguete" a "herramienta".
Dominio del Rendimiento: Superación Integral
En varios benchmarks autorizados, K2.5 ha mostrado una fuerza que rivaliza o incluso supera a los mejores modelos de código cerrado con "modos de pensamiento" (incluidos Gemini 3 Pro, GPT-5.2, Claude Opus 4.5, etc.):
| Benchmark | Dominio | Puntos Destacados de Rendimiento |
|---|---|---|
| HLE-Full | Razonamiento | Más fuerte que DeepSeek-V3.2 |
| SWE-Bench Verified | Programación | Tasa de resolución del 80.9%, rompiendo el techo del código abierto |
| MMMU Pro | Visión | Capacidad de comprensión multimodal visual líder, cercana al nivel de Claude Opus 4.5 |
| BrowseComp | Búsqueda | Mejora significativa del rendimiento en modo Agent Swarm |
Cómo Experimentarlo
Actualmente, Kimi K2.5 ha aterrizado en las siguientes plataformas, ofreciendo cuatro modos (Instant, Thinking, Agent, Agent Swarm):
- Versión Web Kimi.com
- Kimi 智能助手 App (Aplicación Asistente Inteligente)
- Kimi 开放平台 (Plataforma Abierta API)
- Kimi Code: Una nueva herramienta de código para terminal que admite la integración con VSCode, Cursor, etc.
Nota: El modo Agent Swarm se encuentra actualmente en fase beta y ofrece pruebas gratuitas a los usuarios premium.
Esta ola de actualizaciones sin duda eleva la dimensión de la competencia de IA del simple "diálogo de texto" a las nuevas alturas de "acción visual" e "inteligencia de enjambre". Para desarrolladores y usuarios empresariales, Kimi K2.5 ofrece no solo un modelo más fuerte, sino un nuevo conjunto de armas para resolver problemas complejos.