DeepSeek V3.1 Terminus: подробный разбор
DeepSeek V3.1 Terminus: подробный разбор
DeepSeek V3.1 вышел 19 августа 2025 года как поэтапное развитие DeepSeek V3. Обновление Terminus сохраняет ту же архитектуру Mixture-of-Experts, но усиливает многоязыковую согласованность и стабильность агентов. В материале сравниваются три ключевых чекпоинта: DeepSeek-V3.1-Base, DeepSeek-V3.1 и DeepSeek-V3.1-Terminus.
Линейка версий
| Версия | Позиционирование | Основные возможности |
|---|---|---|
| DeepSeek-V3.1-Base | Базовый чекпоинт для дополнительного предобучения или адаптации | 671 млрд параметров, около 37 млрд активных на токен, контекст 128K, лицензия MIT для дообучения. |
| DeepSeek-V3.1 | Инструкционно-ориентированная модель с режимами thinking и non-thinking | Добавляет чат-шаблоны, оптимизированный вызов инструментов и повышает эффективность рассуждений при неизменном бэкбоне. |
| DeepSeek-V3.1-Terminus | Патч надежности поверх V3.1 | Устраняет смешение языков, улучшает кодовые и поисковые агенты и повышает метрики без изменения структуры. |
Архитектура и обучение
Все три чекпоинта используют MoE-дизайн DeepSeek с 671 млрд параметров экспертов и примерно 37 млрд активных параметров на токен, а также контекстное окно 128K. V3.1 строится на базе Base, расширяя обучение длинного контекста в двух фазах: 32K до 630 млрд токенов и 128K до 209 млрд, при этом применяется микромасштабирование UE8M0 FP8 для весов и активаций.
DeepSeek также отмечает, что обновление V3.1 увеличивает общий корпус до 14,8 трлн токенов и внедряет thinking-пайплайн прямо в основную модель, устраняя необходимость переключаться на отдельный релиз для рассуждений.
Чат-шаблоны и инструменты
DeepSeek-V3.1 вводит единый чат-шаблон с переключением между префиксами non-thinking и thinking и удерживает новый токен </think> в многоходовых диалогах. Шаблоны для tool calling, Code Agent и Search Agent опубликованы в репозитории, что позволяет использовать одни и те же веса для структурированных агентов. Terminus сохраняет эти шаблоны без изменений, поэтому существующие интеграции остаются совместимыми.
Основные бенчмарки
По сравнению с августовской сборкой Terminus демонстрирует поступательный рост: MMLU-Pro вырос с 84,8 до 85,0, SWE Verified — с 66,0 до 68,4, SWE-bench Multilingual — с 54,5 до 57,8. BrowseComp поднялся с 30,0 до 38,5, Terminal-bench — с 31,3 до 36,7. Рост обусловлен корректировками декодера и агентных шаблонов в Terminus.
Ранее выпущенный V3.1 уже оставил DeepSeek V3 позади благодаря лучшему использованию инструментов, более высоким результатам по математике и улучшенной генерации кода, сохраняя паритет с DeepSeek-R1-0528 в thinking-режиме при более быстрой реакции.
Языковая надежность и известные проблемы
Terminus нацелен на стабильный выбор языка, уменьшает смешанные китайско-английские ответы и аномальные символы, а также обновляет шаблоны Code Agent и Search Agent. Компания предупреждает о известной проблеме: параметры self_attn.o_proj пока не полностью соответствуют шкале UE8M0 FP8, исправление планируется в следующем релизе.
Стоимость и доступ
Публичный API DeepSeek предоставляет семейство V3.1 с почасовым тарифицированием: 0,27 доллара за миллион входных токенов при cache miss (0,07 доллара при cache hit) и 1,10 доллара за миллион выходных токенов в пиковые часы, со скидкой 50% в непиковое время. Поскольку приложение, веб и API уже работают на Terminus, обновление сводится к повторной проверке промптов.
Для самостоятельного размещения доступны чекпоинты под лицензией MIT в форматах BF16, FP8 (E4M3) и FP32 на Hugging Face, включая Base, V3.1 и Terminus; на ModelScope размещены зеркала для материкового Китая. Единая архитектура позволяет дообучить Base под свои задачи и затем перейти на Terminus при необходимости большей стабильности.
План внедрения
- Определите потребности: требуется ли контроль над MoE (Base), готовое следование инструкциям (V3.1) или усиленная многоязычная стабильность (Terminus).
- Повторно запустите бенчмарки, особенно SWE-bench Multilingual и BrowseComp, чтобы оценить влияние новых настроек декодера.
- При использовании собственных FP8-решений заранее учтите будущую корректировку
self_attn.o_proj. - Актуализируйте модели бюджетов API с учетом почасовой тарификации и возросшей успешности агентов в Terminus.
Четкое понимание различий между Base, V3.1 и Terminus по части выравнивания, инструментария и бенчмарков помогает выбрать оптимальную точку старта и дорожную карту внедрения в продакшн.