Deep Dive
9 minutes dakika okuma
DeepSeek Insights Team

DeepSeek V3.1 Terminus: kapsamlı analiz

DeepSeek V3.1 Terminus: kapsamlı analiz

DeepSeek V3.1, 19 Ağustos 2025 tarihinde DeepSeek V3'ün kademeli bir güncellemesi olarak duyuruldu. Terminus sürümü, aynı Mixture-of-Experts omurgasını korurken çok dilli tutarlılığı ve ajan güvenilirliğini daha da güçlendiriyor. Bu yazı üç temel checkpoint'i karşılaştırıyor: DeepSeek-V3.1-Base, DeepSeek-V3.1 ve DeepSeek-V3.1-Terminus.

Sürüm panoraması

SürümKonumlandırmaTemel yetenekler
DeepSeek-V3.1-BaseEk pretraining veya alan uyarlaması için temel checkpointToplam 671 milyar parametre, token başına yaklaşık 37 milyar aktif, 128K bağlam penceresi, MIT lisansı ile aşağı akım tuning'e hazır.
DeepSeek-V3.1Thinking ve non-thinking modlarına sahip talimat hizalı sohbet modeliAynı omurgayı koruyarak sohbet şablonları, optimize edilmiş araç çağırma ve daha yüksek akıl yürütme verimliliği sunar.
DeepSeek-V3.1-TerminusV3.1 üzerine inşa edilen güvenilirlik güncellemesiDil karışımını azaltır, kod ve arama ajanlarını iyileştirir ve çekirdek yapıyı değiştirmeden benchmark'ları yükseltir.

Mimari ve eğitim yapısı

Üç checkpoint de 671 milyar uzman parametreli, token başına yaklaşık 37 milyar aktif parametreye sahip ve 128K token bağlam sunan DeepSeek MoE tasarımını paylaşır. V3.1, Base üzerine iki aşamalı uzun bağlam eğitimi ekler: 32K aşaması 630 milyar tokene, 128K aşaması 209 milyar tokene kadar genişler ve ağırlıklar ile aktivasyonlar için UE8M0 FP8 mikroskala formatı kullanılır.

DeepSeek ayrıca V3.1 yükseltmesinin toplam korpusu 14,8 trilyon tokene çıkardığını ve düşünme hattını ana modele doğrudan entegre ederek ayrı bir akıl yürütme sürümüne geçiş ihtiyacını ortadan kaldırdığını belirtiyor.

Sohbet şablonları ve araç kullanımı

DeepSeek-V3.1, non-thinking ve thinking önekleri arasında geçiş yapabilen birleşik bir sohbet şablonu sunar ve yeni </think> belirtecini çok turlu diyaloglarda korur. Araç çağırma, Code Agent ve Search Agent formatları resmi varlıklarda belgelenmiştir; böylece aynı ağırlıklar yapılandırılmış ajanları besler. Terminus bu şablonları aynen korur, bu sebeple mevcut entegrasyonlar değişiklik gerektirmez.

Benchmark öne çıkanları

Ağustos yapısına kıyasla Terminus ölçülü ancak net iyileştirmeler sunar: MMLU-Pro 84,8'den 85,0'a, SWE Verified 66,0'dan 68,4'e, SWE-bench Multilingual 54,5'ten 57,8'e yükselir. BrowseComp 30,0'dan 38,5'e, Terminal-bench 31,3'ten 36,7'ye çıkar. Bu kazanımlar, Terminus ile gelen yeni kod çözücü ve ajan şablonlarının sonucudur.

Önceki V3.1 sürümü de DeepSeek V3'e göre daha güçlü araç kullanımı, daha yüksek matematik başarı oranları ve geliştirilmiş kod üretimi sunarak Thinking modunda DeepSeek-R1-0528 ile eş düzeyde olup daha hızlı yanıt vermişti.

Dil güvenilirliği ve bilinen sorunlar

Terminus özellikle Çinçe-İngilizce karışık çıktıları ve anormal karakterleri azaltmaya odaklanır, ayrıca dağıtımla gelen Code Agent ve Search Agent şablonlarını yeniden ayarlar. DeepSeek, self_attn.o_proj parametrelerinin UE8M0 FP8 ölçeğine tam uymadığı bilinen bir sorun olarak kalacağını ve gelecek bir yamayla düzeltileceğini bildiriyor.

Fiyatlandırma ve erişim

DeepSeek'in herkese açık API'si V3.1 ailesini zaman dilimine göre fiyatlandırır: tepe saatlerde cache miss durumunda milyon giriş token başına 0,27 ABD doları (cache hit durumunda 0,07 ABD doları) ve milyon çıkış token başına 1,10 ABD doları, durgun saatlerde yüzde 50 indirimle. Uygulama, web ve API zaten Terminus üzerinde çalıştığı için güncelleme esasen prompt'ları yeniden doğrulamayı içerir.

Self-hosting için, Base, V3.1 ve Terminus'u kapsayan BF16, FP8 (E4M3) ve FP32 hassasiyetlerinde MIT lisanslı checkpoint'ler Hugging Face üzerinde mevcuttur; Çin ana karası için ModelScope aynaları sağlanır. Böylece farklı hızlandırıcı yığınlarını hedeflerken doğruluk ve maliyeti dengede tutmak daha kolay.

Uygulama kontrol listesi

  1. İhtiyacı belirleyin: saf MoE kontrolü gerekiyorsa Base, hazır talimat takibi gerekiyorsa V3.1, çok dilli ve ajan istikrarı öncelikse Terminus.
  2. Terminus'un kod çözücü değişikliklerini değerlendirmek için SWE-bench Multilingual ve BrowseComp gibi testleri yeniden çalıştırın.
  3. Özel FP8 çekirdekleri kullanıyorsanız self_attn.o_proj ölçek düzeltmesinin etkisini önceden planlayın.
  4. Zaman dilimine dayalı tarifeyi ve Terminus'un daha yüksek ajan başarı oranlarını yansıtarak API bütçelerini güncelleyin.

Base, V3.1 ve Terminus'un hizalama, araç zinciri ve benchmark farklarını anlamak, ekiplerin doğru başlangıç noktasını ve üretime geçiş takvimini seçmesine yardımcı olur.

İlgili Makaleler

Moonshot AI, Kimi K2.6'yı resmi olarak piyasaya sürdü; Code Preview dalını 12 saatlik özerk kodlama oturumları, 300 ajanlı sürüler ve tam yığın oluşturma için tasarlanmış genel kullanıma açık bir modele yükseltti. Ne değişti, ne anlama geliyor ve nasıl kullanılır.
Kimi K2.6 hakkındaki ilginç soru ne yaptığı değil — açıkça hangi tür modeli barındırmak için inşa edildiğidir. 12 saatlik çalışmaları, 300 ajanlı sürüleri ve bağlam sıkıştırıcıyı yük taşıyan altyapı olarak ele aldığınızda K3'ün şekli görünür hale gelir.
13 Nisan 2026'da Moonshot AI, Kimi K2.6 Code Preview'ın beta test aşamasına girdiğini resmi olarak doğruladı. Bir trilyon parametreli MoE mimarisi üzerine inşa edilen bu yeni nesil model, kod üretimi ve ajan yeteneklerinde önemli iyileştirmeler sunuyor.