المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الاختبارات الأولية ل Kimi-K2.5 عبر KTransformers+SGLang، على بطاقة تفريغ ذاكرة معالج هجينة 4x RTX Pro 6000 + ذاكرة معالج 640GB/1.5TB. الحساب مقدم من كبسولات Lium:
- 19.97 TOK/s من الخارج @ 10 طلبات متزامنة
- متوسط TTFT: ~120 ثانية
- متوسط TTFT: ~102
أحتاج إلى تجربة علامات KT لتحسين هذا الإعداد بشكل أكبر، والذي يعتمد بشكل كبير على عدد أنوية المعالج وذاكرة الوصول العشوائي المتاحة للنظام بشكل عام. ترابط ذاكرة الذاكرة <-> PCIe <-> هو أوضح عنق زجاجة
الخبراء حسب طبقة MoE على وحدة معالجة الرسومات:
--kt-num-gpu-experts=128
أنوية المعالج المخصصة لاستنتاج MoE:
--kt-cpuinfer=104
خبراء المعالج يعملون مع تداخل مع عمل وحدة معالجة الرسوميات:
--kt-max-deferred-experts-per-token=2
الحد الأقصى للرموز لكل جزء من التعبئة المسبقة:
--حجم تعبئة مقطع=32658
تم تعطيل التقاط رسم بياني CUDA:
--disable-cuda-graph


25 فبراير 2026
تشغيل Kimi-K2.5 على 8 معالجات RTX Pro 6000 Blackwells، مع خطط لاختبار إعداد استدلالي هجين بين المعالج المركزي/وحدة معالجة الرسومات عبر KTransformers+SGLang على 4 وحدات معالجة نفس المعالجات
أنا فضولي جدا لمعرفة الأداء العام مع نظام الهجين مقارنة بتركيب Kimi-K2.5 الكمي عبر وحدات معالجة الرسوميات الأربعة. سيحتاج النظام الهجين إلى حوالي 768 جيجابايت من الذاكرة العشوائية
للبدء، إليك خط أساس عبر 8 وحدات معالجة رسومات باستخدام عبء عمل على نمط وكيل ترميز صناعي يستهدف 2000-45 ألف رمز إدخال، و80-3 آلاف رمز إخراج كحد أقصى، مع ما يصل إلى 10 طلبات متزامنة. علم --mem-fraction-static في SGLang مضبوط على 0.90
متوسط معدل النقل الأساسي:
~74 رمز/ثانية @ 10 طلبات متزامنة

أعلام KTransformers+SGLang لإعادة إنتاج الأعمال:
==========
التصدير CUDA_VISIBLE_DEVICES=0,1,2,3
التصدير OMP_NUM_THREADS=1
تصدير MKL_NUM_THREADS=1
تصدير OPENBLAS_NUM_THREADS=1
تصدير NUMEXPR_NUM_THREADS=1
تصدير VECLIB_MAXIMUM_THREADS=1
بايثون -م sglang.launch_server \
--المسار <HF_PATH>النموذجي /النماذج--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--kt-weight-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \
--KT-cpuinfer 104 \
--kt-threadpool-count 2 \
--KT-NUM-GPU-EXPERTS 128 \
--KT-max-deferred-experts-per-token 2 \
--طريقة kt RAWINT4 \
--kt-gpu-prefill-token-threshold 400 \
--زي استراتيجية التعيين الخبير \
--trust-remote-code \
--ميم-كسر-ثابت 0.90 \
--الموديل-اسم الخدمة kimi_k2 \
--tool-call-parser kimi_k2 \
--محلل الاستدلال kimi_k2 \
--disable-radix-cache \
--disable-chunked-prefix-cache \
--enable-mixed-chunk \
--حجم موتر-متوازي 4 \
--تمكين p2p-check \
--تعطيل الخبراء المشتركين-اندماج \
--حجم تعبئة مقطع 32658 \
--أقصى إجمالي للرموز 120000 \
--انتباه-خلفية فلاش \
--disable-cuda-graph \
--المضيف 0.0.0.0 \
--المنفذ 8000
124
الأفضل
المُتصدِّرة
التطبيقات المفضلة