DeepSeek V3.1 Terminus: kapsamlı analiz
DeepSeek V3.1 Terminus: kapsamlı analiz
DeepSeek V3.1, 19 Ağustos 2025 tarihinde DeepSeek V3'ün kademeli bir güncellemesi olarak duyuruldu. Terminus sürümü, aynı Mixture-of-Experts omurgasını korurken çok dilli tutarlılığı ve ajan güvenilirliğini daha da güçlendiriyor. Bu yazı üç temel checkpoint'i karşılaştırıyor: DeepSeek-V3.1-Base, DeepSeek-V3.1 ve DeepSeek-V3.1-Terminus.
Sürüm panoraması
| Sürüm | Konumlandırma | Temel yetenekler |
|---|---|---|
| DeepSeek-V3.1-Base | Ek pretraining veya alan uyarlaması için temel checkpoint | Toplam 671 milyar parametre, token başına yaklaşık 37 milyar aktif, 128K bağlam penceresi, MIT lisansı ile aşağı akım tuning'e hazır. |
| DeepSeek-V3.1 | Thinking ve non-thinking modlarına sahip talimat hizalı sohbet modeli | Aynı omurgayı koruyarak sohbet şablonları, optimize edilmiş araç çağırma ve daha yüksek akıl yürütme verimliliği sunar. |
| DeepSeek-V3.1-Terminus | V3.1 üzerine inşa edilen güvenilirlik güncellemesi | Dil karışımını azaltır, kod ve arama ajanlarını iyileştirir ve çekirdek yapıyı değiştirmeden benchmark'ları yükseltir. |
Mimari ve eğitim yapısı
Üç checkpoint de 671 milyar uzman parametreli, token başına yaklaşık 37 milyar aktif parametreye sahip ve 128K token bağlam sunan DeepSeek MoE tasarımını paylaşır. V3.1, Base üzerine iki aşamalı uzun bağlam eğitimi ekler: 32K aşaması 630 milyar tokene, 128K aşaması 209 milyar tokene kadar genişler ve ağırlıklar ile aktivasyonlar için UE8M0 FP8 mikroskala formatı kullanılır.
DeepSeek ayrıca V3.1 yükseltmesinin toplam korpusu 14,8 trilyon tokene çıkardığını ve düşünme hattını ana modele doğrudan entegre ederek ayrı bir akıl yürütme sürümüne geçiş ihtiyacını ortadan kaldırdığını belirtiyor.
Sohbet şablonları ve araç kullanımı
DeepSeek-V3.1, non-thinking ve thinking önekleri arasında geçiş yapabilen birleşik bir sohbet şablonu sunar ve yeni </think> belirtecini çok turlu diyaloglarda korur. Araç çağırma, Code Agent ve Search Agent formatları resmi varlıklarda belgelenmiştir; böylece aynı ağırlıklar yapılandırılmış ajanları besler. Terminus bu şablonları aynen korur, bu sebeple mevcut entegrasyonlar değişiklik gerektirmez.
Benchmark öne çıkanları
Ağustos yapısına kıyasla Terminus ölçülü ancak net iyileştirmeler sunar: MMLU-Pro 84,8'den 85,0'a, SWE Verified 66,0'dan 68,4'e, SWE-bench Multilingual 54,5'ten 57,8'e yükselir. BrowseComp 30,0'dan 38,5'e, Terminal-bench 31,3'ten 36,7'ye çıkar. Bu kazanımlar, Terminus ile gelen yeni kod çözücü ve ajan şablonlarının sonucudur.
Önceki V3.1 sürümü de DeepSeek V3'e göre daha güçlü araç kullanımı, daha yüksek matematik başarı oranları ve geliştirilmiş kod üretimi sunarak Thinking modunda DeepSeek-R1-0528 ile eş düzeyde olup daha hızlı yanıt vermişti.
Dil güvenilirliği ve bilinen sorunlar
Terminus özellikle Çinçe-İngilizce karışık çıktıları ve anormal karakterleri azaltmaya odaklanır, ayrıca dağıtımla gelen Code Agent ve Search Agent şablonlarını yeniden ayarlar. DeepSeek, self_attn.o_proj parametrelerinin UE8M0 FP8 ölçeğine tam uymadığı bilinen bir sorun olarak kalacağını ve gelecek bir yamayla düzeltileceğini bildiriyor.
Fiyatlandırma ve erişim
DeepSeek'in herkese açık API'si V3.1 ailesini zaman dilimine göre fiyatlandırır: tepe saatlerde cache miss durumunda milyon giriş token başına 0,27 ABD doları (cache hit durumunda 0,07 ABD doları) ve milyon çıkış token başına 1,10 ABD doları, durgun saatlerde yüzde 50 indirimle. Uygulama, web ve API zaten Terminus üzerinde çalıştığı için güncelleme esasen prompt'ları yeniden doğrulamayı içerir.
Self-hosting için, Base, V3.1 ve Terminus'u kapsayan BF16, FP8 (E4M3) ve FP32 hassasiyetlerinde MIT lisanslı checkpoint'ler Hugging Face üzerinde mevcuttur; Çin ana karası için ModelScope aynaları sağlanır. Böylece farklı hızlandırıcı yığınlarını hedeflerken doğruluk ve maliyeti dengede tutmak daha kolay.
Uygulama kontrol listesi
- İhtiyacı belirleyin: saf MoE kontrolü gerekiyorsa Base, hazır talimat takibi gerekiyorsa V3.1, çok dilli ve ajan istikrarı öncelikse Terminus.
- Terminus'un kod çözücü değişikliklerini değerlendirmek için SWE-bench Multilingual ve BrowseComp gibi testleri yeniden çalıştırın.
- Özel FP8 çekirdekleri kullanıyorsanız
self_attn.o_projölçek düzeltmesinin etkisini önceden planlayın. - Zaman dilimine dayalı tarifeyi ve Terminus'un daha yüksek ajan başarı oranlarını yansıtarak API bütçelerini güncelleyin.
Base, V3.1 ve Terminus'un hizalama, araç zinciri ve benchmark farklarını anlamak, ekiplerin doğru başlangıç noktasını ve üretime geçiş takvimini seçmesine yardımcı olur.