DeepSeek V3.1 вышел 19 августа 2025 года как поэтапное развитие DeepSeek V3. Обновление Terminus сохраняет ту же архитектуру Mixture-of-Experts, но усиливает многоязыковую согласованность и стабильность агентов. В материале сравниваются три ключевых чекпоинта: DeepSeek-V3.1-Base, DeepSeek-V3.1 и DeepSeek-V3.1-Terminus.

Линейка версий

Версия	Позиционирование	Основные возможности
DeepSeek-V3.1-Base	Базовый чекпоинт для дополнительного предобучения или адаптации	671 млрд параметров, около 37 млрд активных на токен, контекст 128K, лицензия MIT для дообучения.
DeepSeek-V3.1	Инструкционно-ориентированная модель с режимами thinking и non-thinking	Добавляет чат-шаблоны, оптимизированный вызов инструментов и повышает эффективность рассуждений при неизменном бэкбоне.
DeepSeek-V3.1-Terminus	Патч надежности поверх V3.1	Устраняет смешение языков, улучшает кодовые и поисковые агенты и повышает метрики без изменения структуры.

Архитектура и обучение

Все три чекпоинта используют MoE-дизайн DeepSeek с 671 млрд параметров экспертов и примерно 37 млрд активных параметров на токен, а также контекстное окно 128K. V3.1 строится на базе Base, расширяя обучение длинного контекста в двух фазах: 32K до 630 млрд токенов и 128K до 209 млрд, при этом применяется микромасштабирование UE8M0 FP8 для весов и активаций.

DeepSeek также отмечает, что обновление V3.1 увеличивает общий корпус до 14,8 трлн токенов и внедряет thinking-пайплайн прямо в основную модель, устраняя необходимость переключаться на отдельный релиз для рассуждений.

Чат-шаблоны и инструменты

DeepSeek-V3.1 вводит единый чат-шаблон с переключением между префиксами non-thinking и thinking и удерживает новый токен </think> в многоходовых диалогах. Шаблоны для tool calling, Code Agent и Search Agent опубликованы в репозитории, что позволяет использовать одни и те же веса для структурированных агентов. Terminus сохраняет эти шаблоны без изменений, поэтому существующие интеграции остаются совместимыми.

Основные бенчмарки

По сравнению с августовской сборкой Terminus демонстрирует поступательный рост: MMLU-Pro вырос с 84,8 до 85,0, SWE Verified — с 66,0 до 68,4, SWE-bench Multilingual — с 54,5 до 57,8. BrowseComp поднялся с 30,0 до 38,5, Terminal-bench — с 31,3 до 36,7. Рост обусловлен корректировками декодера и агентных шаблонов в Terminus.

Ранее выпущенный V3.1 уже оставил DeepSeek V3 позади благодаря лучшему использованию инструментов, более высоким результатам по математике и улучшенной генерации кода, сохраняя паритет с DeepSeek-R1-0528 в thinking-режиме при более быстрой реакции.

Языковая надежность и известные проблемы

Terminus нацелен на стабильный выбор языка, уменьшает смешанные китайско-английские ответы и аномальные символы, а также обновляет шаблоны Code Agent и Search Agent. Компания предупреждает о известной проблеме: параметры self_attn.o_proj пока не полностью соответствуют шкале UE8M0 FP8, исправление планируется в следующем релизе.

Стоимость и доступ

Публичный API DeepSeek предоставляет семейство V3.1 с почасовым тарифицированием: 0,27 доллара за миллион входных токенов при cache miss (0,07 доллара при cache hit) и 1,10 доллара за миллион выходных токенов в пиковые часы, со скидкой 50% в непиковое время. Поскольку приложение, веб и API уже работают на Terminus, обновление сводится к повторной проверке промптов.

Для самостоятельного размещения доступны чекпоинты под лицензией MIT в форматах BF16, FP8 (E4M3) и FP32 на Hugging Face, включая Base, V3.1 и Terminus; на ModelScope размещены зеркала для материкового Китая. Единая архитектура позволяет дообучить Base под свои задачи и затем перейти на Terminus при необходимости большей стабильности.

План внедрения

Определите потребности: требуется ли контроль над MoE (Base), готовое следование инструкциям (V3.1) или усиленная многоязычная стабильность (Terminus).
Повторно запустите бенчмарки, особенно SWE-bench Multilingual и BrowseComp, чтобы оценить влияние новых настроек декодера.
При использовании собственных FP8-решений заранее учтите будущую корректировку self_attn.o_proj.
Актуализируйте модели бюджетов API с учетом почасовой тарификации и возросшей успешности агентов в Terminus.

Четкое понимание различий между Base, V3.1 и Terminus по части выравнивания, инструментария и бенчмарков помогает выбрать оптимальную точку старта и дорожную карту внедрения в продакшн.

DeepSeek V3.1 Terminus: подробный разбор

Линейка версий

Архитектура и обучение

Чат-шаблоны и инструменты

Основные бенчмарки

Языковая надежность и известные проблемы

Стоимость и доступ

План внедрения

Popular Kimi K2 paths

Kimi K3

Kimi K2.7 Code

Kimi Code

Kimi K3 Status

Похожие статьи