Deep Dive
9 minutes мин чтения
DeepSeek Insights Team

DeepSeek V3.1 Terminus: подробный разбор

DeepSeek V3.1 Terminus: подробный разбор

DeepSeek V3.1 вышел 19 августа 2025 года как поэтапное развитие DeepSeek V3. Обновление Terminus сохраняет ту же архитектуру Mixture-of-Experts, но усиливает многоязыковую согласованность и стабильность агентов. В материале сравниваются три ключевых чекпоинта: DeepSeek-V3.1-Base, DeepSeek-V3.1 и DeepSeek-V3.1-Terminus.

Линейка версий

ВерсияПозиционированиеОсновные возможности
DeepSeek-V3.1-BaseБазовый чекпоинт для дополнительного предобучения или адаптации671 млрд параметров, около 37 млрд активных на токен, контекст 128K, лицензия MIT для дообучения.
DeepSeek-V3.1Инструкционно-ориентированная модель с режимами thinking и non-thinkingДобавляет чат-шаблоны, оптимизированный вызов инструментов и повышает эффективность рассуждений при неизменном бэкбоне.
DeepSeek-V3.1-TerminusПатч надежности поверх V3.1Устраняет смешение языков, улучшает кодовые и поисковые агенты и повышает метрики без изменения структуры.

Архитектура и обучение

Все три чекпоинта используют MoE-дизайн DeepSeek с 671 млрд параметров экспертов и примерно 37 млрд активных параметров на токен, а также контекстное окно 128K. V3.1 строится на базе Base, расширяя обучение длинного контекста в двух фазах: 32K до 630 млрд токенов и 128K до 209 млрд, при этом применяется микромасштабирование UE8M0 FP8 для весов и активаций.

DeepSeek также отмечает, что обновление V3.1 увеличивает общий корпус до 14,8 трлн токенов и внедряет thinking-пайплайн прямо в основную модель, устраняя необходимость переключаться на отдельный релиз для рассуждений.

Чат-шаблоны и инструменты

DeepSeek-V3.1 вводит единый чат-шаблон с переключением между префиксами non-thinking и thinking и удерживает новый токен </think> в многоходовых диалогах. Шаблоны для tool calling, Code Agent и Search Agent опубликованы в репозитории, что позволяет использовать одни и те же веса для структурированных агентов. Terminus сохраняет эти шаблоны без изменений, поэтому существующие интеграции остаются совместимыми.

Основные бенчмарки

По сравнению с августовской сборкой Terminus демонстрирует поступательный рост: MMLU-Pro вырос с 84,8 до 85,0, SWE Verified — с 66,0 до 68,4, SWE-bench Multilingual — с 54,5 до 57,8. BrowseComp поднялся с 30,0 до 38,5, Terminal-bench — с 31,3 до 36,7. Рост обусловлен корректировками декодера и агентных шаблонов в Terminus.

Ранее выпущенный V3.1 уже оставил DeepSeek V3 позади благодаря лучшему использованию инструментов, более высоким результатам по математике и улучшенной генерации кода, сохраняя паритет с DeepSeek-R1-0528 в thinking-режиме при более быстрой реакции.

Языковая надежность и известные проблемы

Terminus нацелен на стабильный выбор языка, уменьшает смешанные китайско-английские ответы и аномальные символы, а также обновляет шаблоны Code Agent и Search Agent. Компания предупреждает о известной проблеме: параметры self_attn.o_proj пока не полностью соответствуют шкале UE8M0 FP8, исправление планируется в следующем релизе.

Стоимость и доступ

Публичный API DeepSeek предоставляет семейство V3.1 с почасовым тарифицированием: 0,27 доллара за миллион входных токенов при cache miss (0,07 доллара при cache hit) и 1,10 доллара за миллион выходных токенов в пиковые часы, со скидкой 50% в непиковое время. Поскольку приложение, веб и API уже работают на Terminus, обновление сводится к повторной проверке промптов.

Для самостоятельного размещения доступны чекпоинты под лицензией MIT в форматах BF16, FP8 (E4M3) и FP32 на Hugging Face, включая Base, V3.1 и Terminus; на ModelScope размещены зеркала для материкового Китая. Единая архитектура позволяет дообучить Base под свои задачи и затем перейти на Terminus при необходимости большей стабильности.

План внедрения

  1. Определите потребности: требуется ли контроль над MoE (Base), готовое следование инструкциям (V3.1) или усиленная многоязычная стабильность (Terminus).
  2. Повторно запустите бенчмарки, особенно SWE-bench Multilingual и BrowseComp, чтобы оценить влияние новых настроек декодера.
  3. При использовании собственных FP8-решений заранее учтите будущую корректировку self_attn.o_proj.
  4. Актуализируйте модели бюджетов API с учетом почасовой тарификации и возросшей успешности агентов в Terminus.

Четкое понимание различий между Base, V3.1 и Terminus по части выравнивания, инструментария и бенчмарков помогает выбрать оптимальную точку старта и дорожную карту внедрения в продакшн.

Похожие статьи

Moonshot AI официально выпустила Kimi K2.6, переведя ветку Code Preview в статус общедоступной модели для 12-часовых сессий автономного программирования, роёв из 300 агентов и полноценной full-stack-генерации. Что изменилось, что это означает и как применить это на практике.
Главный вопрос о Kimi K2.6 — не что он умеет, а для какой модели его явно готовят. Рассмотрите 12-часовые запуски, рои из 300 агентов и компрессор контекста как несущую инфраструктуру — и форма K3 станет видна.
13 апреля 2026 года Moonshot AI официально подтвердила, что Kimi K2.6 Code Preview вышла на этап бета-тестирования. Построенная на архитектуре MoE с триллионом параметров, эта модель нового поколения обеспечивает значительные улучшения в генерации кода и возможностях агентов.