Deep Dive
9 minutes min de lecture
DeepSeek Insights Team

DeepSeek V3.1 Terminus : analyse complète

DeepSeek V3.1 Terminus : analyse complète

DeepSeek V3.1 est sorti le 19 août 2025 comme mise à jour incrémentale de DeepSeek V3. L’édition Terminus conserve le même backbone Mixture-of-Experts tout en renforçant la fidélité multilingue et la fiabilité des agents. Ce guide examine les trois checkpoints essentiels : DeepSeek-V3.1-Base, DeepSeek-V3.1 et DeepSeek-V3.1-Terminus.

Panorama des versions

VersionPositionnementCapacités clés
DeepSeek-V3.1-BaseCheckpoint fondation pour pré-entraînement personnalisé ou adaptation métier671 milliards de paramètres totaux dont ~37 milliards actifs par token, fenêtre de contexte 128K, licence MIT pour la mise au point aval.
DeepSeek-V3.1Modèle conversationnel aligné avec modes thinking et non-thinkingAjoute des templates de chat, un appel d’outils optimisé et une meilleure efficacité de raisonnement par rapport à DeepSeek V3 sans changer l’architecture.
DeepSeek-V3.1-TerminusPatch de fiabilité basé sur V3.1Corrige les mélanges de langues, renforce les agents de code et de recherche et améliore les benchmarks sans modifier la structure de base.

Architecture et pipeline d’entraînement

Les trois checkpoints partagent la conception MoE de DeepSeek comprenant 671 milliards de paramètres d’experts, environ 37 milliards actifs par token, et une fenêtre de contexte de 128K tokens. V3.1 s’appuie sur Base en prolongeant l’entraînement long contexte en deux étapes : 32K jusqu’à 630 milliards de tokens et 128K jusqu’à 209 milliards, en adoptant le microscaling UE8M0 FP8 pour poids et activations.

DeepSeek précise également que la mise à jour V3.1 porte le corpus total à 14,8 billions de tokens et intègre le flux de pensée directement dans le modèle principal, supprimant la nécessité d’un release de raisonnement distinct.

Templates de chat et tooling

DeepSeek-V3.1 introduit un template de chat unifié permettant de basculer entre préfixes non-thinking et thinking tout en conservant le nouveau token </think> sur plusieurs tours. Les formats de Tool Calling, Code Agent et Search Agent sont décrits dans les assets officiels, ce qui permet d’utiliser les mêmes poids pour des agents structurés. Terminus conserve ces templates, assurant la compatibilité des intégrations existantes.

Points saillants des benchmarks

Comparé à la build d’août, Terminus progresse légèrement : MMLU-Pro passe de 84,8 à 85,0, SWE Verified de 66,0 à 68,4 et SWE-bench Multilingual de 54,5 à 57,8. BrowseComp monte de 30,0 à 38,5 tandis que Terminal-bench atteint 36,7 contre 31,3. Ces gains découlent des ajustements de décodage et de templates d’agents introduits par Terminus.

Le précédent release V3.1 surpassait déjà DeepSeek V3 grâce à une meilleure utilisation des outils, des scores mathématiques plus élevés et une génération de code renforcée, tout en restant au niveau de DeepSeek-R1-0528 en mode thinking avec des réponses plus rapides.

Fiabilité linguistique et problèmes connus

Terminus vise une cohérence linguistique accrue, réduit les sorties mêlant chinois et anglais ainsi que les caractères anormaux, et affine les templates Code Agent et Search Agent livrés avec le modèle. DeepSeek signale toutefois un problème connu : les paramètres self_attn.o_proj ne respectent pas encore totalement l’échelle UE8M0 FP8 et seront corrigés dans un patch ultérieur.

Tarification et accès

L’API publique de DeepSeek expose la famille V3.1 avec tarification temporelle : 0,27 $ par million de tokens d’entrée en cache miss (0,07 $ en cache hit) et 1,10 $ par million de tokens de sortie aux heures de pointe, avec une remise de 50 % en heures creuses. L’application, le site web et l’API fonctionnant déjà sur Terminus, la mise à niveau se limite essentiellement à revalider les prompts.

Pour l’auto-hébergement, des checkpoints sous licence MIT en BF16, FP8 (E4M3) et FP32 sont disponibles sur Hugging Face, incluant Base, V3.1 et Terminus ; ModelScope fournit des miroirs pour la Chine continentale. La même architecture permet d’affiner Base puis de passer à Terminus lorsque des exigences de stabilité plus strictes apparaissent.

Liste de mise en œuvre

  1. Déterminer le besoin : contrôle MoE brut (Base), suivi d’instructions prêt à l’emploi (V3.1) ou stabilité multilingue/agent renforcée (Terminus).
  2. Relancer les suites d’évaluation, notamment SWE-bench Multilingual et BrowseComp, pour mesurer l’effet des changements de décodage de Terminus.
  3. Si vous utilisez des kernels FP8 personnalisés, anticiper la correction à venir de l’échelle self_attn.o_proj.
  4. Mettre à jour les budgets API en fonction de la tarification horaire et du meilleur taux de réussite des agents avec Terminus.

Comprendre les différences entre Base, V3.1 et Terminus en matière d’alignement, de tooling et de benchmarks aide les équipes à choisir le point de départ et le calendrier de déploiement idéal.

Articles associés

Moonshot AI a officiellement lancé Kimi K2.6, faisant passer la branche Code Preview au statut de modèle en disponibilité générale, conçu pour des sessions de codage autonome de 12 heures, des essaims de 300 agents et la génération full-stack. Ce qui a changé, ce que cela signifie et comment le mettre en œuvre.
La question intéressante concernant Kimi K2.6 n'est pas ce qu'il fait — c'est pour quel type de modèle il est manifestement conçu. Considérez les exécutions de 12 heures, les essaims de 300 agents et le compresseur de contexte comme une infrastructure porteuse, et la forme de K3 devient visible.
Le 13 avril 2026, Moonshot AI a officiellement confirmé que Kimi K2.6 Code Preview est entré en phase bêta. Construit sur une architecture MoE d'un billion de paramètres, ce modèle de nouvelle génération offre des améliorations significatives en génération de code et en capacités d'agents.