DeepSeek V3.1 estreou em 19 de agosto de 2025 como uma atualização incremental do DeepSeek V3. A edição Terminus mantém o mesmo backbone Mixture-of-Experts, mas reforça a fidelidade multilingue e a confiabilidade dos agentes. Este guia contrasta os três checkpoints centrais: DeepSeek-V3.1-Base, DeepSeek-V3.1 e DeepSeek-V3.1-Terminus.

Panorama das versões

Versão	Posicionamento	Capacidades principais
DeepSeek-V3.1-Base	Checkpoint fundacional para pretraining adicional ou adaptação de domínio	671 bilhões de parâmetros totais, cerca de 37 bilhões ativos por token, janela de contexto 128K, licença MIT para tuning downstream.
DeepSeek-V3.1	Modelo conversacional alinhado a instruções com modos thinking e non-thinking	Acrescenta templates de chat, chamadas de ferramentas otimizadas e maior eficiência de raciocínio em relação ao DeepSeek V3 mantendo a arquitetura base.
DeepSeek-V3.1-Terminus	Patch de confiabilidade sobre V3.1	Mitiga mistura de idiomas, aprimora agentes de código e busca e eleva benchmarks sem alterar a estrutura central.

Arquitetura e treinamento

Os três checkpoints compartilham o design MoE da DeepSeek com 671 bilhões de parâmetros especialistas e cerca de 37 bilhões ativos por token, além de janela de contexto de 128K tokens. V3.1 estende o Base com duas fases adicionais de treinamento de longo contexto: 32K até 630 bilhões de tokens e 128K até 209 bilhões, adotando microscaling UE8M0 FP8 para pesos e ativações.

A DeepSeek também relata que a atualização V3.1 amplia o corpus para 14,8 trilhões de tokens e integra o fluxo de pensamento diretamente no modelo principal, eliminando a necessidade de alternar para um release de raciocínio separado.

Templates de chat e tooling

DeepSeek-V3.1 introduz um template de chat unificado capaz de alternar entre prefixos non-thinking e thinking, preservando o novo token </think> em diálogos de múltiplas rodadas. Formatos de tool calling, Code Agent e Search Agent estão descritos nos assets oficiais, permitindo compartilhar os mesmos pesos em agentes estruturados. Terminus mantém esses templates, preservando a compatibilidade das integrações existentes.

Destaques de benchmarks

Em relação à build de agosto, Terminus apresenta ganhos graduais: MMLU-Pro sobe de 84,8 para 85,0, SWE Verified de 66,0 para 68,4 e SWE-bench Multilingual de 54,5 para 57,8. BrowseComp evolui de 30,0 para 38,5 e Terminal-bench de 31,3 para 36,7. Os avanços refletem os ajustes de decodificação e templates de agentes introduzidos em Terminus.

O lançamento V3.1 já superava o DeepSeek V3 anterior, com uso de ferramentas mais robusto, melhores resultados em matemática e geração de código aprimorada, mantendo paridade com o DeepSeek-R1-0528 no modo thinking, porém com respostas mais rápidas.

Confiabilidade linguística e problemas conhecidos

Terminus foca na consistência linguística, reduz saídas com misturas de chinês e inglês e caracteres anômalos, além de refinar os templates de Code Agent e Search Agent. A DeepSeek aponta um problema conhecido: os parâmetros self_attn.o_proj ainda não seguem totalmente a escala UE8M0 FP8 e serão corrigidos em um patch futuro.

Preço e acesso

A API pública da DeepSeek disponibiliza a família V3.1 com tarifação por faixa horária: US$ 0,27 por milhão de tokens de entrada em cache miss (US$ 0,07 em cache hit) e US$ 1,10 por milhão de tokens de saída em horário de pico, com descontos de 50% fora do pico. Como app, web e API já rodam Terminus, a atualização concentra-se em validar prompts sem trocar endpoints.

Para autohospedagem, há checkpoints licenciados sob MIT na Hugging Face nas precisões BF16, FP8 (E4M3) e FP32, cobrindo Base, V3.1 e Terminus; a ModelScope mantém espelhos para a China continental. A arquitetura compartilhada permite ajustar o Base e depois substituí-lo por Terminus quando a estabilidade adicional for necessária.

Checklist de adoção

Defina a necessidade: controle MoE bruto (Base), alinhamento de instruções pronto para uso (V3.1) ou estabilidade multilingue e de agentes reforçada (Terminus).
Refaça suites de avaliação — sobretudo SWE-bench Multilingual e BrowseComp — para validar o impacto das mudanças de decodificação do Terminus.
Se usa kernels FP8 personalizados, planeje-se para a correção futura da escala self_attn.o_proj.
Atualize modelos de orçamento de API considerando a tarifação por horário e as taxas de sucesso de agentes superiores no Terminus.

Compreender as diferenças de alinhamento, tooling e benchmarks entre Base, V3.1 e Terminus ajuda as equipes a escolher o ponto de partida ideal e o ritmo de adoção rumo à produção.

DeepSeek V3.1 Terminus: análise completa

Panorama das versões

Arquitetura e treinamento

Templates de chat e tooling

Destaques de benchmarks

Confiabilidade linguística e problemas conhecidos

Preço e acesso

Checklist de adoção

Popular Kimi K2 paths

Kimi K2.7 Code

Kimi Code

Kimi Code guide

Kimi K3 Status

Artigos relacionados