DeepSeek V3.1 Terminus vs Kimi K2-0905: Cómo elegir el motor de agentes para el cuarto trimestre de 2025
Calendario de lanzamientos e intención
DeepSeek liberó el parche Terminus el 22 de septiembre de 2025, afinando la alineación multilingüe y actualizando los agentes de código y búsqueda sin exigir migraciones para web, app o API. Moonshot AI lanzó Kimi K2-0905 el 5 de septiembre de 2025 como actualización de septiembre, orientada a coding agentico, mejoras de front-end y una ventana de contexto más amplia.
Arquitectura, contexto y modalidad de servicio
Ambos modelos siguen el enfoque MoE, pero priorizan elementos distintos:
| Dimensión | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|
| Parámetros totales / activos | 685B totales, ~37B activos por token | 1T total, 32B activos por llamada |
| Expertos por capa | 9 expertos | 8 de 384 expertos |
| Ventana de contexto | 128K tokens | 256K tokens |
| Modos por defecto | Swift (baja latencia) y Think (profundidad) | Perfil único optimizado para coding con herramientas |
| Distribución | Pesos MIT vía Hugging Face y ModelScope | Pesos con licencia MIT + APIs gestionadas |
Terminus conserva Swift/Think y los 128K tokens para equilibrar velocidad y razonamiento. K2-0905 duplica el contexto a 256K y mantiene el stack 1T/32B, ideal para revisar repositorios completos o briefs extensos.
Benchmarks y fiabilidad de agentes
Frente al build de agosto, Terminus mejora en todas las pruebas centradas en agentes:
| Benchmark (configuración de agente) | DeepSeek V3.1 (ago 2025) | DeepSeek V3.1 Terminus | Kimi K2-0905 |
|---|---|---|---|
| SWE-bench Multilingual | 54,5 | 57,8 | 55,9 |
| SWE Verified | 66,0 | 68,4 | 69,2 |
| Terminal-bench | 31,3 | 36,7 | 44,5 |
| BrowseComp | 30,0 | 38,5 | n/a |
| LiveCodeBench | 56,4 | 60,0 (más éxitos) | 61,0 |
Los saltos confirman que Terminus corrigió la mezcla de idiomas y reforzó las plantillas de agentes. K2-0905 sigue liderando Terminal-bench y SWE Verified, acorde con su enfoque de software de extremo a extremo.
Precios (USD por millón de tokens, septiembre 2025)
| Ruta de acceso | Input (cache hit) | Input (cache miss) | Output |
|---|---|---|---|
| API DeepSeek (desde 5 sep) | $0,07 | $0,27 | $1,10 |
| Novita serverless K2-0905 | — | $0,60 | $2,50 |
| Groq hospedando K2-0905 | — | $1,00 | $3,00 |
| Pasarela LangDB K2-0905 | — | $0,49 | $1,99 |
DeepSeek unificó tarifas para Terminus, Swift y Think tras el ajuste del 5 de septiembre de 2025. Los precios de Kimi dependen del distribuidor: Novita ($0,60/$2,50), Groq ($1,00/$3,00) y LangDB ($0,49/$1,99).
Ecosistema y despliegue
- Autoalojamiento: Terminus entrega pesos BF16/FP8/FP32 bajo MIT, útil para VPCs o entornos con requisitos regulatorios.
- Servicios gestionados: K2-0905 vía Groq, Novita o Kimi Cloud ofrece 60–200+ tokens/s y soporte integrado para reducir la carga operativa.
- Fidelidad multilingüe: El parche Terminus aborda la mezcla inglés-chino, reduciendo limpieza manual.
- Calidad front-end: Moonshot subraya mejoras estéticas y estructurales en componentes React/Vue generados por K2-0905.
Lista rápida de decisión
- Caso principal: Terminus para calidad multilingüe y despliegue controlado; K2-0905 cuando 256K tokens o la automatización terminal sean críticos.
- Orquestación híbrida: Usa Terminus para planificar (Swift/Think) y Kimi para ejecutar bucles de coding extensos.
- Control de costes: Compara la tarifa fija de DeepSeek con las opciones de Kimi (Novita, Groq, LangDB); la brecha puede exceder 4x.
- Gobernanza: Terminus cabe íntegramente en tu infraestructura; Kimi gestionado simplifica operaciones pero requiere revisar jurisdicción y datos.
Con una visión clara de tiempos, arquitectura, métricas y coste, es posible colocar deepseek v3.1 terminus y Kimi K2-0905 en los tramos de agentes que ofrecerán mayor impacto en el cuarto trimestre de 2025.