DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Pengujian awal untuk Kimi-K2.5 melalui KTransformers+SGLang, pada hybrid 4x RTX Pro 6000 Blackwell + 640GB/1.5TB memory offload. Komputasi yang disediakan oleh pod Lium: - 19,97 keluaran tok/s @ 10 permintaan bersamaan - TTFT rata-rata: ~120 detik - TTFT Median: ~102 detik Perlu bermain dengan bendera KT untuk lebih mengoptimalkan pengaturan ini, yang sangat bergantung pada jumlah inti CPU sistem secara keseluruhan & RAM yang tersedia. Interkonektivitas RAM <-> PCIe <-> GPU adalah hambatan yang paling jelas Pakar per Lapisan MoE pada GPU: --kt-num-gpu-experts=128 Inti CPU yang didedikasikan untuk inferensi MoE: --kt-cpuinfer=104 Pakar CPU bekerja tumpang tindih pekerjaan GPU: --kt-max-deferred-experts-per-token=2 Token maksimum per potongan pra-isian: --chunked-prefill-size=32658 Pengambilan grafik CUDA dinonaktifkan: --nonaktifkan-cuda-grafik

KTransformers+SGLang bendera untuk mereproduksi pekerjaan: ========== ekspor CUDA_VISIBLE_DEVICES=0,1,2,3 ekspor OMP_NUM_THREADS=1 ekspor MKL_NUM_THREADS=1 ekspor OPENBLAS_NUM_THREADS=1 ekspor NUMEXPR_NUM_THREADS=1 ekspor VECLIB_MAXIMUM_THREADS=1 python -m sglang.launch_server \ --model-path <HF_PATH>/models--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-berat-jalur <HF_PATH>/model--moonshotai--Kimi-K2.5/snapshots/3367c8d1c68584429fab7faf845a32d5195b6ac1 \ --kt-cpuinfer 104 \ --kt-threadpool-count 2 \ --kt-num-gpu-ahli 128 \ --kt-max-deferred-experts-per-token 2 \ --kt-metode RAWINT4 \ --kt-gpu-prefill-token-threshold 400 \ --kt-expert-penempatan-strategi seragam \ --trust-remote-code \ --mem-pecahan-statis 0,90 \ --served-model-name kimi_k2 \ --tool-call-parser kimi_k2 \ --reasoning-parser kimi_k2 \ --disable-radix-cache \ --disable-chunked-prefix-cache \ --aktifkan-campuran-potongan \ --tensor-paralel-ukuran 4 \ --aktifkan-p2p-periksa \ --nonaktifkan-bersama-ahli-fusi \ --chunked-prefill-size 32658 \ --max-total-token 120000 \ --attention-backend flashinfer \ --nonaktifkan-cuda-graph \ --host 0.0.0.0 \ --port 8000

125

Teratas

Peringkat

Favorit