DeepSeek V3.1 Terminus : analyse complète
DeepSeek V3.1 Terminus : analyse complète
DeepSeek V3.1 est sorti le 19 août 2025 comme mise à jour incrémentale de DeepSeek V3. L’édition Terminus conserve le même backbone Mixture-of-Experts tout en renforçant la fidélité multilingue et la fiabilité des agents. Ce guide examine les trois checkpoints essentiels : DeepSeek-V3.1-Base, DeepSeek-V3.1 et DeepSeek-V3.1-Terminus.
Panorama des versions
| Version | Positionnement | Capacités clés |
|---|---|---|
| DeepSeek-V3.1-Base | Checkpoint fondation pour pré-entraînement personnalisé ou adaptation métier | 671 milliards de paramètres totaux dont ~37 milliards actifs par token, fenêtre de contexte 128K, licence MIT pour la mise au point aval. |
| DeepSeek-V3.1 | Modèle conversationnel aligné avec modes thinking et non-thinking | Ajoute des templates de chat, un appel d’outils optimisé et une meilleure efficacité de raisonnement par rapport à DeepSeek V3 sans changer l’architecture. |
| DeepSeek-V3.1-Terminus | Patch de fiabilité basé sur V3.1 | Corrige les mélanges de langues, renforce les agents de code et de recherche et améliore les benchmarks sans modifier la structure de base. |
Architecture et pipeline d’entraînement
Les trois checkpoints partagent la conception MoE de DeepSeek comprenant 671 milliards de paramètres d’experts, environ 37 milliards actifs par token, et une fenêtre de contexte de 128K tokens. V3.1 s’appuie sur Base en prolongeant l’entraînement long contexte en deux étapes : 32K jusqu’à 630 milliards de tokens et 128K jusqu’à 209 milliards, en adoptant le microscaling UE8M0 FP8 pour poids et activations.
DeepSeek précise également que la mise à jour V3.1 porte le corpus total à 14,8 billions de tokens et intègre le flux de pensée directement dans le modèle principal, supprimant la nécessité d’un release de raisonnement distinct.
Templates de chat et tooling
DeepSeek-V3.1 introduit un template de chat unifié permettant de basculer entre préfixes non-thinking et thinking tout en conservant le nouveau token </think> sur plusieurs tours. Les formats de Tool Calling, Code Agent et Search Agent sont décrits dans les assets officiels, ce qui permet d’utiliser les mêmes poids pour des agents structurés. Terminus conserve ces templates, assurant la compatibilité des intégrations existantes.
Points saillants des benchmarks
Comparé à la build d’août, Terminus progresse légèrement : MMLU-Pro passe de 84,8 à 85,0, SWE Verified de 66,0 à 68,4 et SWE-bench Multilingual de 54,5 à 57,8. BrowseComp monte de 30,0 à 38,5 tandis que Terminal-bench atteint 36,7 contre 31,3. Ces gains découlent des ajustements de décodage et de templates d’agents introduits par Terminus.
Le précédent release V3.1 surpassait déjà DeepSeek V3 grâce à une meilleure utilisation des outils, des scores mathématiques plus élevés et une génération de code renforcée, tout en restant au niveau de DeepSeek-R1-0528 en mode thinking avec des réponses plus rapides.
Fiabilité linguistique et problèmes connus
Terminus vise une cohérence linguistique accrue, réduit les sorties mêlant chinois et anglais ainsi que les caractères anormaux, et affine les templates Code Agent et Search Agent livrés avec le modèle. DeepSeek signale toutefois un problème connu : les paramètres self_attn.o_proj ne respectent pas encore totalement l’échelle UE8M0 FP8 et seront corrigés dans un patch ultérieur.
Tarification et accès
L’API publique de DeepSeek expose la famille V3.1 avec tarification temporelle : 0,27 $ par million de tokens d’entrée en cache miss (0,07 $ en cache hit) et 1,10 $ par million de tokens de sortie aux heures de pointe, avec une remise de 50 % en heures creuses. L’application, le site web et l’API fonctionnant déjà sur Terminus, la mise à niveau se limite essentiellement à revalider les prompts.
Pour l’auto-hébergement, des checkpoints sous licence MIT en BF16, FP8 (E4M3) et FP32 sont disponibles sur Hugging Face, incluant Base, V3.1 et Terminus ; ModelScope fournit des miroirs pour la Chine continentale. La même architecture permet d’affiner Base puis de passer à Terminus lorsque des exigences de stabilité plus strictes apparaissent.
Liste de mise en œuvre
- Déterminer le besoin : contrôle MoE brut (Base), suivi d’instructions prêt à l’emploi (V3.1) ou stabilité multilingue/agent renforcée (Terminus).
- Relancer les suites d’évaluation, notamment SWE-bench Multilingual et BrowseComp, pour mesurer l’effet des changements de décodage de Terminus.
- Si vous utilisez des kernels FP8 personnalisés, anticiper la correction à venir de l’échelle
self_attn.o_proj. - Mettre à jour les budgets API en fonction de la tarification horaire et du meilleur taux de réussite des agents avec Terminus.
Comprendre les différences entre Base, V3.1 et Terminus en matière d’alignement, de tooling et de benchmarks aide les équipes à choisir le point de départ et le calendrier de déploiement idéal.