Menjalankan Kimi-K2.5 pada 8x RTX Pro 6000 Blackwells, dengan rencana untuk akhirnya menguji pengaturan inferensi hibrida CPU/GPU melalui KTransformers+SGLang pada 4x GPU yang sama Sangat penasaran untuk mengukur kinerja keseluruhan dengan pengaturan hybrid dibandingkan dengan Kimi-K2.5 yang dikuantisasi yang cocok di 4 GPU. Pengaturan hybrid akan membutuhkan RAM hampir 768GB Untuk memulai, berikut adalah garis besar di 8x GPU menggunakan beban kerja gaya agen pengkodean sintetis yang menargetkan token input 2k-45k, token output maks 80-3k, dan dengan hingga 10 permintaan bersamaan. Bendera --mem-fraction-static SGLang diatur ke 0,90 Throughput rata-rata dasar: ~74 token keluaran/dtk @ 10 permintaan bersamaan