Deep Dive
9 minutes min de leitura
DeepSeek Insights Team

DeepSeek V3.1 Terminus: análise completa

DeepSeek V3.1 estreou em 19 de agosto de 2025 como uma atualização incremental do DeepSeek V3. A edição Terminus mantém o mesmo backbone Mixture-of-Experts, mas reforça a fidelidade multilingue e a confiabilidade dos agentes. Este guia contrasta os três checkpoints centrais: DeepSeek-V3.1-Base, DeepSeek-V3.1 e DeepSeek-V3.1-Terminus.

Panorama das versões

VersãoPosicionamentoCapacidades principais
DeepSeek-V3.1-BaseCheckpoint fundacional para pretraining adicional ou adaptação de domínio671 bilhões de parâmetros totais, cerca de 37 bilhões ativos por token, janela de contexto 128K, licença MIT para tuning downstream.
DeepSeek-V3.1Modelo conversacional alinhado a instruções com modos thinking e non-thinkingAcrescenta templates de chat, chamadas de ferramentas otimizadas e maior eficiência de raciocínio em relação ao DeepSeek V3 mantendo a arquitetura base.
DeepSeek-V3.1-TerminusPatch de confiabilidade sobre V3.1Mitiga mistura de idiomas, aprimora agentes de código e busca e eleva benchmarks sem alterar a estrutura central.

Arquitetura e treinamento

Os três checkpoints compartilham o design MoE da DeepSeek com 671 bilhões de parâmetros especialistas e cerca de 37 bilhões ativos por token, além de janela de contexto de 128K tokens. V3.1 estende o Base com duas fases adicionais de treinamento de longo contexto: 32K até 630 bilhões de tokens e 128K até 209 bilhões, adotando microscaling UE8M0 FP8 para pesos e ativações.

A DeepSeek também relata que a atualização V3.1 amplia o corpus para 14,8 trilhões de tokens e integra o fluxo de pensamento diretamente no modelo principal, eliminando a necessidade de alternar para um release de raciocínio separado.

Templates de chat e tooling

DeepSeek-V3.1 introduz um template de chat unificado capaz de alternar entre prefixos non-thinking e thinking, preservando o novo token </think> em diálogos de múltiplas rodadas. Formatos de tool calling, Code Agent e Search Agent estão descritos nos assets oficiais, permitindo compartilhar os mesmos pesos em agentes estruturados. Terminus mantém esses templates, preservando a compatibilidade das integrações existentes.

Destaques de benchmarks

Em relação à build de agosto, Terminus apresenta ganhos graduais: MMLU-Pro sobe de 84,8 para 85,0, SWE Verified de 66,0 para 68,4 e SWE-bench Multilingual de 54,5 para 57,8. BrowseComp evolui de 30,0 para 38,5 e Terminal-bench de 31,3 para 36,7. Os avanços refletem os ajustes de decodificação e templates de agentes introduzidos em Terminus.

O lançamento V3.1 já superava o DeepSeek V3 anterior, com uso de ferramentas mais robusto, melhores resultados em matemática e geração de código aprimorada, mantendo paridade com o DeepSeek-R1-0528 no modo thinking, porém com respostas mais rápidas.

Confiabilidade linguística e problemas conhecidos

Terminus foca na consistência linguística, reduz saídas com misturas de chinês e inglês e caracteres anômalos, além de refinar os templates de Code Agent e Search Agent. A DeepSeek aponta um problema conhecido: os parâmetros self_attn.o_proj ainda não seguem totalmente a escala UE8M0 FP8 e serão corrigidos em um patch futuro.

Preço e acesso

A API pública da DeepSeek disponibiliza a família V3.1 com tarifação por faixa horária: US$ 0,27 por milhão de tokens de entrada em cache miss (US$ 0,07 em cache hit) e US$ 1,10 por milhão de tokens de saída em horário de pico, com descontos de 50% fora do pico. Como app, web e API já rodam Terminus, a atualização concentra-se em validar prompts sem trocar endpoints.

Para autohospedagem, há checkpoints licenciados sob MIT na Hugging Face nas precisões BF16, FP8 (E4M3) e FP32, cobrindo Base, V3.1 e Terminus; a ModelScope mantém espelhos para a China continental. A arquitetura compartilhada permite ajustar o Base e depois substituí-lo por Terminus quando a estabilidade adicional for necessária.

Checklist de adoção

  1. Defina a necessidade: controle MoE bruto (Base), alinhamento de instruções pronto para uso (V3.1) ou estabilidade multilingue e de agentes reforçada (Terminus).
  2. Refaça suites de avaliação — sobretudo SWE-bench Multilingual e BrowseComp — para validar o impacto das mudanças de decodificação do Terminus.
  3. Se usa kernels FP8 personalizados, planeje-se para a correção futura da escala self_attn.o_proj.
  4. Atualize modelos de orçamento de API considerando a tarifação por horário e as taxas de sucesso de agentes superiores no Terminus.

Compreender as diferenças de alinhamento, tooling e benchmarks entre Base, V3.1 e Terminus ajuda as equipes a escolher o ponto de partida ideal e o ritmo de adoção rumo à produção.

Artigos relacionados

Kimi K2.7 Code já está disponível. Entenda o que Kimi K2.7 significa para Kimi Code, contexto de 256K, modo thinking, entrada multimodal, fluxos com agentes, preços e casos de uso para desenvolvedores.
Kimi Code agora é impulsionado por Kimi K2.7 Code. Veja o ID kimi-k2.7-code, variáveis para Claude Code, configuração no Cline e RooCode, uso via API, controle de custos e prompts prontos.
Se o Kimi já gerou um link público para o seu site, ele já está publicado para compartilhamento. Veja quando usar o link do Kimi, quando exportar o código e como mover o site para seu próprio domínio ou hospedagem.