DeepSeek V3.1 Terminus: Agentes multilingües listos para producción
DeepSeek V3.1 Terminus: Novedades para los builders
Resumen del lanzamiento
DeepSeek V3.1 Terminus llegó el 22 de septiembre de 2025 como una refinación específica del lanzamiento del 21 de agosto. DeepSeek ya actualizó la app, la web y la API a Terminus, de modo que los agentes existentes heredan la mejora sin migraciones adicionales.
Avances multilingües
La actualización se centra en mejorar la alineación entre idiomas. Terminus conserva la ventana de contexto de 128K tokens e introduce ajustes de decodificación que reducen alucinaciones en preguntas y respuestas híbridas. Si tu flujo pasa de requisitos en inglés a ejecución local, estas mejoras recortan el tiempo de ajuste de prompts por idioma.
Rendimiento de los agentes
Las métricas respaldan el salto: Terminus alcanza 57,8 en SWE-bench Multilingual (antes 54,5) y 62,9 en MixInstruct 2/8-shot (antes 59,2). También registra 68,4 en SWE Verified y 91,2 en HumanEval, mostrando un razonamiento más sólido para cadenas de agentes extensas.
Stack de funcionalidades
La arquitectura sigue siendo un diseño Mixture-of-Experts de 685B parámetros con unos 37B activos por token. Los builders conservan los modos de inferencia Swift (rápido) y Think (profundo), además de las herramientas integradas de gestión de datos y vectores, por lo que pueden adoptar Terminus sin rehacer las canalizaciones actuales.
Despliegue y acceso
DeepSeek publica checkpoints de Terminus en BF16, FP8 (E4M3) y FP32 bajo licencia MIT en Hugging Face, con espejos en ModelScope para cargas en China continental. Así es más sencillo adaptarlo a distintos aceleradores equilibrando precisión y costes.
Próximos pasos
- Reevaluar los presupuestos de API considerando los precios de Terminus, Swift y Think vigentes desde el 5 de septiembre de 2025.
- Repetir las pruebas de QA multilingüe e instrucciones para confirmar el comportamiento con los nuevos parámetros de decodificación.
- Descargar los checkpoints recientes de Terminus y planificar pipelines de fine-tuning o evaluación antes del despliegue masivo.