DeepSeek V3.1 Terminus: análise completa
DeepSeek V3.1 estreou em 19 de agosto de 2025 como uma atualização incremental do DeepSeek V3. A edição Terminus mantém o mesmo backbone Mixture-of-Experts, mas reforça a fidelidade multilingue e a confiabilidade dos agentes. Este guia contrasta os três checkpoints centrais: DeepSeek-V3.1-Base, DeepSeek-V3.1 e DeepSeek-V3.1-Terminus.
Panorama das versões
| Versão | Posicionamento | Capacidades principais |
|---|---|---|
| DeepSeek-V3.1-Base | Checkpoint fundacional para pretraining adicional ou adaptação de domínio | 671 bilhões de parâmetros totais, cerca de 37 bilhões ativos por token, janela de contexto 128K, licença MIT para tuning downstream. |
| DeepSeek-V3.1 | Modelo conversacional alinhado a instruções com modos thinking e non-thinking | Acrescenta templates de chat, chamadas de ferramentas otimizadas e maior eficiência de raciocínio em relação ao DeepSeek V3 mantendo a arquitetura base. |
| DeepSeek-V3.1-Terminus | Patch de confiabilidade sobre V3.1 | Mitiga mistura de idiomas, aprimora agentes de código e busca e eleva benchmarks sem alterar a estrutura central. |
Arquitetura e treinamento
Os três checkpoints compartilham o design MoE da DeepSeek com 671 bilhões de parâmetros especialistas e cerca de 37 bilhões ativos por token, além de janela de contexto de 128K tokens. V3.1 estende o Base com duas fases adicionais de treinamento de longo contexto: 32K até 630 bilhões de tokens e 128K até 209 bilhões, adotando microscaling UE8M0 FP8 para pesos e ativações.
A DeepSeek também relata que a atualização V3.1 amplia o corpus para 14,8 trilhões de tokens e integra o fluxo de pensamento diretamente no modelo principal, eliminando a necessidade de alternar para um release de raciocínio separado.
Templates de chat e tooling
DeepSeek-V3.1 introduz um template de chat unificado capaz de alternar entre prefixos non-thinking e thinking, preservando o novo token </think> em diálogos de múltiplas rodadas. Formatos de tool calling, Code Agent e Search Agent estão descritos nos assets oficiais, permitindo compartilhar os mesmos pesos em agentes estruturados. Terminus mantém esses templates, preservando a compatibilidade das integrações existentes.
Destaques de benchmarks
Em relação à build de agosto, Terminus apresenta ganhos graduais: MMLU-Pro sobe de 84,8 para 85,0, SWE Verified de 66,0 para 68,4 e SWE-bench Multilingual de 54,5 para 57,8. BrowseComp evolui de 30,0 para 38,5 e Terminal-bench de 31,3 para 36,7. Os avanços refletem os ajustes de decodificação e templates de agentes introduzidos em Terminus.
O lançamento V3.1 já superava o DeepSeek V3 anterior, com uso de ferramentas mais robusto, melhores resultados em matemática e geração de código aprimorada, mantendo paridade com o DeepSeek-R1-0528 no modo thinking, porém com respostas mais rápidas.
Confiabilidade linguística e problemas conhecidos
Terminus foca na consistência linguística, reduz saídas com misturas de chinês e inglês e caracteres anômalos, além de refinar os templates de Code Agent e Search Agent. A DeepSeek aponta um problema conhecido: os parâmetros self_attn.o_proj ainda não seguem totalmente a escala UE8M0 FP8 e serão corrigidos em um patch futuro.
Preço e acesso
A API pública da DeepSeek disponibiliza a família V3.1 com tarifação por faixa horária: US$ 0,27 por milhão de tokens de entrada em cache miss (US$ 0,07 em cache hit) e US$ 1,10 por milhão de tokens de saída em horário de pico, com descontos de 50% fora do pico. Como app, web e API já rodam Terminus, a atualização concentra-se em validar prompts sem trocar endpoints.
Para autohospedagem, há checkpoints licenciados sob MIT na Hugging Face nas precisões BF16, FP8 (E4M3) e FP32, cobrindo Base, V3.1 e Terminus; a ModelScope mantém espelhos para a China continental. A arquitetura compartilhada permite ajustar o Base e depois substituí-lo por Terminus quando a estabilidade adicional for necessária.
Checklist de adoção
- Defina a necessidade: controle MoE bruto (Base), alinhamento de instruções pronto para uso (V3.1) ou estabilidade multilingue e de agentes reforçada (Terminus).
- Refaça suites de avaliação — sobretudo SWE-bench Multilingual e BrowseComp — para validar o impacto das mudanças de decodificação do Terminus.
- Se usa kernels FP8 personalizados, planeje-se para a correção futura da escala
self_attn.o_proj. - Atualize modelos de orçamento de API considerando a tarifação por horário e as taxas de sucesso de agentes superiores no Terminus.
Compreender as diferenças de alinhamento, tooling e benchmarks entre Base, V3.1 e Terminus ajuda as equipes a escolher o ponto de partida ideal e o ritmo de adoção rumo à produção.