DeepSeek V3.1 Terminus 종합 분석
DeepSeek V3.1 Terminus 종합 분석
DeepSeek V3.1은 2025년 8월 19일 DeepSeek V3의 점진적 업그레이드로 출시되었습니다. 이후 공개된 Terminus 버전은 동일한 Mixture-of-Experts 백본을 유지하면서 다국어 정합성과 에이전트 신뢰성을 크게 강화했습니다. 본 글은 DeepSeek-V3.1-Base, DeepSeek-V3.1, DeepSeek-V3.1-Terminus 세 가지 체크포인트를 비교합니다.
버전 개요
| 버전 | 포지셔닝 | 핵심 기능 |
|---|---|---|
| DeepSeek-V3.1-Base | 추가 사전학습·도메인 적응용 기반 체크포인트 | 총 6,710억 파라미터, 토큰당 약 370억 활성, 128K 컨텍스트, MIT 라이선스로 다운스트림 튜닝 가능. |
| DeepSeek-V3.1 | Thinking/Non-thinking 모드를 갖춘 지시추종형 챗 모델 | Base 위에 챗 템플릿과 최적화된 툴 호출을 추가해 아키텍처를 유지한 채 추론 효율 향상. |
| DeepSeek-V3.1-Terminus | V3.1 기반 신뢰성 강화 패치 | 언어 혼용을 억제하고 코드·검색 에이전트를 개선하며 벤치마크 성능을 끌어올림. 구조는 동일. |
아키텍처 및 학습 스택
세 체크포인트 모두 DeepSeek MoE 설계를 공유하며, 총 6,710억 전문가 파라미터와 토큰당 약 370억 활성 파라미터, 128K 토큰 컨텍스트를 제공합니다. V3.1은 Base 체크포인트를 바탕으로 장문 컨텍스트 학습을 두 단계로 확장해 32K 단계는 6300억 토큰, 128K 단계는 2090억 토큰까지 늘리고, 가중치와 활성화에 UE8M0 FP8 마이크로스케일링을 적용합니다.
DeepSeek는 또한 V3.1 업그레이드로 전체 코퍼스를 14.8조 토큰까지 확장하고, 사고(Thinking) 파이프라인을 메인 모델에 통합해 별도의 추론 전용 릴리스를 사용할 필요가 없다고 설명합니다.
챗 템플릿과 툴링
DeepSeek-V3.1은 Non-thinking과 Thinking 프리픽스를 전환할 수 있는 통합 챗 템플릿을 도입하고, 멀티턴 대화에서 새 </think> 토큰을 유지합니다. 툴 호출, 코드 에이전트, 검색 에이전트 포맷도 공식 자산에 정의되어 있어 하나의 가중치로 구조화된 에이전트를 구성할 수 있습니다. Terminus는 이러한 템플릿을 그대로 계승하므로 기존 통합은 수정 없이 동작합니다.
벤치마크 하이라이트
8월 빌드 대비 Terminus는 소폭이지만 꾸준한 향상을 보입니다. MMLU-Pro는 84.8에서 85.0, SWE Verified는 66.0에서 68.4, SWE-bench Multilingual은 54.5에서 57.8로 상승했습니다. BrowseComp은 30.0에서 38.5, Terminal-bench는 31.3에서 36.7로 뛰어 Terminus의 디코더 조정과 에이전트 템플릿 개선 효과가 확인됩니다.
기존 V3.1 역시 DeepSeek V3 대비 도구 활용 능력, 수학 성과, 코드 생성 품질을 높였으며, Thinking 모드에서는 DeepSeek-R1-0528과 동등한 성능을 유지하면서 응답 속도는 더 빠릅니다.
언어 안정성과 알려진 이슈
Terminus는 특히 중·영 혼합 출력과 비정상 문자를 줄이고, 함께 제공되는 Code Agent와 Search Agent 템플릿을 재조정했습니다. 다만 self_attn.o_proj 파라미터가 UE8M0 FP8 스케일과 다소 어긋난 상태로 배포되었으며, 향후 패치에서 수정될 예정입니다.
가격 정책과 접근 방식
DeepSeek 공개 API는 V3.1 패밀리를 시간대 기반 토큰 요금제로 제공합니다. 피크 시간대 캐시 미스 입력 토큰은 100만 개당 0.27달러(캐시 히트 시 0.07달러), 출력 토큰은 1.10달러이고, 비혼잡 시간대에는 50% 할인됩니다. 앱·웹·API가 이미 Terminus로 전환되어 있으므로 실무에서는 프롬프트 재검증이 핵심 작업입니다.
셀프 호스팅을 위해 Hugging Face에서 BF16·FP8(E4M3)·FP32 정밀도의 MIT 라이선스 체크포인트(Base, V3.1, Terminus)를 내려받을 수 있으며, 중국 본토용 ModelScope 미러도 제공됩니다. 공통 아키텍처 덕분에 Base로 커스텀 튜닝을 진행한 뒤 안정성 요구에 맞춰 Terminus로 교체하기 쉽습니다.
도입 체크리스트
- 요구사항 결정: 원시 MoE 제어가 필요하면 Base, 즉시 지시 수행이 중요하면 V3.1, 다국어·에이전트 안정성을 최우선으로 하면 Terminus를 선택합니다.
- Terminus의 디코더 변경 효과를 확인하기 위해 SWE-bench Multilingual, BrowseComp 등 평가 스위트를 재실행합니다.
- 커스텀 FP8 커널을 사용한다면
self_attn.o_proj스케일 수정이 미칠 영향을 사전에 검토합니다. - 시간대별 요금과 향상된 에이전트 성공률을 반영해 API 예산 모델을 업데이트합니다.
Base, V3.1, Terminus가 정렬 방식·툴링·벤치마크에서 어떻게 다른지 이해하면, 조직에 맞는 출발점과 업그레이드 경로를 명확히 설계할 수 있습니다.