تحليل شامل لـ DeepSeek V3.1 Terminus
تحليل شامل لـ DeepSeek V3.1 Terminus
أُطلق DeepSeek V3.1 في 19 أغسطس 2025 كتحديث تدريجي لـ DeepSeek V3، ثم جاءت نسخة Terminus لتحافظ على نفس بنية Mixture-of-Experts مع تحسين التناسق متعدد اللغات وموثوقية الوكلاء. يستعرض هذا الدليل ثلاثة نقاط تحقق أساسية: DeepSeek-V3.1-Base وDeepSeek-V3.1 وDeepSeek-V3.1-Terminus.
مشهد الإصدارات
| الإصدار | التوجه | القدرات الرئيسية |
|---|---|---|
| DeepSeek-V3.1-Base | نقطة تحقق أساسية للتدريب الإضافي أو التخصيص حسب المجال | 671 مليار معلمة بإجمالي نحو 37 مليار معلمة نشطة لكل رمز، نافذة سياق 128K، ترخيص MIT يتيح الضبط اللاحق. |
| DeepSeek-V3.1 | نموذج محادثة محاذى للتعليمات مع وضعي التفكير وغير التفكير | يضيف قوالب محادثة واستدعاء أدوات محسّنًا وكفاءة أعلى في الاستدلال مقارنة بـ DeepSeek V3 مع الحفاظ على نفس البنية. |
| DeepSeek-V3.1-Terminus | تحديث موثوقية مبني على V3.1 | يعالج خلط اللغات، ويحسن وكلاء الكود والبحث، ويرفع نتائج الاختبارات دون تغيير الهيكل الأساسي. |
البنية وسلسلة التدريب
تشترك الإصدارات الثلاثة في تصميم DeepSeek القائم على Mixture-of-Experts بعدد 671 مليار معلمة وقرابة 37 مليار معلمة نشطة لكل رمز، مع نافذة سياق يبلغ طولها 128 ألف رمز. يعتمد V3.1 على نسخة Base عبر توسيع التدريب طويل السياق في مرحلتين: مرحلة 32K حتى 630 مليار رمز، ومرحلة 128K حتى 209 مليارات رمز، مع استخدام تنسيق UE8M0 FP8 للوزنات والتفعيلات.
تشير DeepSeek أيضًا إلى أن ترقية V3.1 رفعت حجم المتن إلى 14.8 تريليون رمز ودمجت مسار التفكير داخل النموذج الرئيسي، ما يلغي الحاجة إلى إصدار منفصل مخصص للاستدلال.
قوالب المحادثة وقدرات الأدوات
يقدّم DeepSeek-V3.1 قالب محادثة موحدًا يمكنه التبديل بين بادئة غير التفكير وبادئة التفكير، ويحتفظ بالرمز الجديد </think> عبر الحوارات متعددة الأدوار. كما توفّر الأصول الرسمية تعريفات لاستدعاء الأدوات ووكلاء الكود والبحث، مما يسمح بتشغيل الوكلاء المهيكلين بالوزنات ذاتها. تحافظ نسخة Terminus على هذه القوالب كما هي، وبالتالي تظل عمليات الدمج الحالية متوافقة.
أبرز نتائج الاختبارات
مقارنة بإصدار أغسطس، تسجل Terminus تحسنًا تدريجيًا: يرتفع MMLU-Pro من 84.8 إلى 85.0، وSWE Verified من 66.0 إلى 68.4، وSWE-bench Multilingual من 54.5 إلى 57.8. كما يرتفع BrowseComp من 30.0 إلى 38.5 وTerminal-bench من 31.3 إلى 36.7، وهي مكاسب تعكس تعديلات التشفير وقوالب الوكلاء التي جاء بها الإصدار.
أما V3.1 السابق فقد تفوّق بالفعل على DeepSeek V3 بفضل تحسين استدعاء الأدوات، وارتفاع معدلات النجاح في الرياضيات، وقدرات أفضل في توليد الكود، مع الحفاظ على تكافؤ الأداء في وضع التفكير مع DeepSeek-R1-0528 والاستجابة بسرعة أعلى.
موثوقية اللغة والمشكلات المعروفة
تركّز Terminus على استقرار اللغة، فتقلل خلط المخرجات الصينية-الإنجليزية وتحد من الحروف غير المتوقعة، كما تعيد ضبط قوالب Code Agent وSearch Agent المرفقة. ومع ذلك تشير DeepSeek إلى مشكلة معروفة: معاملات self_attn.o_proj لم تتوافق بعد تمامًا مع مقياس UE8M0 FP8 وسيتم تصحيحها في إصدار لاحق.
التسعير وطرق الوصول
تطرح واجهة برمجة تطبيقات DeepSeek العامة عائلة V3.1 بأسعار تعتمد على أوقات الذروة: 0.27 دولار لكل مليون رمز إدخال عند عدم وجود ذاكرة مخبئية (0.07 دولار مع وجودها) و1.10 دولار لكل مليون رمز إخراج في أوقات الذروة، مع خصم 50٪ خارجها. وبما أن التطبيق والويب وواجهة البرمجة انتقلت بالفعل إلى Terminus، فإن الترقية تتمحور حول إعادة اختبار المطالبات بدلًا من تغيير نقاط النهاية.
للاستضافة الذاتية، تتوفر نقاط تحقق بترخيص MIT على Hugging Face بدقة BF16 وFP8 (E4M3) وFP32 تشمل Base وV3.1 وTerminus، إلى جانب مرايا على ModelScope لاحتياجات الصين القاريّة. يسمح هذا الهيكل الموحد بتدريب نسخة Base وتبديلها لاحقًا بـ Terminus عند الحاجة إلى موثوقية أعلى.
قائمة التنفيذ
- تحديد الحاجة: تحكم خام في بنية MoE (اختر Base)، أو استجابة فورية للتعليمات (اختر V3.1)، أو أولوية للثبات متعدد اللغات ووكلاء أقوى (اختر Terminus).
- إعادة تشغيل حزم الاختبار، خصوصًا SWE-bench Multilingual وBrowseComp، للتحقق من أثر تغييرات التشفير في Terminus.
- إذا كنت تستخدم نوى FP8 مخصصة، فضع في الحسبان التحديث القادم لمقياس
self_attn.o_proj. - حدّث نماذج ميزانية واجهة البرمجة بما يتناسب مع التسعير الزمني وارتفاع معدلات نجاح الوكلاء في Terminus.
فهم الفوارق بين Base وV3.1 وTerminus على مستوى المحاذاة والأدوات والاختبارات يساعد الفرق على اختيار نقطة الانطلاق وخارطة الطريق الأنسب للانتقال إلى بيئات الإنتاج.