Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Menjalankan Kimi-K2.5 pada 8x RTX Pro 6000 Blackwells, dengan rencana untuk akhirnya menguji pengaturan inferensi hibrida CPU/GPU melalui KTransformers+SGLang pada 4x GPU yang sama
Sangat penasaran untuk mengukur kinerja keseluruhan dengan pengaturan hybrid dibandingkan dengan Kimi-K2.5 yang dikuantisasi yang cocok di 4 GPU. Pengaturan hybrid akan membutuhkan RAM hampir 768GB
Untuk memulai, berikut adalah garis besar di 8x GPU menggunakan beban kerja gaya agen pengkodean sintetis yang menargetkan token input 2k-45k, token output maks 80-3k, dan dengan hingga 10 permintaan bersamaan. Bendera --mem-fraction-static SGLang diatur ke 0,90
Throughput rata-rata dasar:
~74 token keluaran/dtk @ 10 permintaan bersamaan

Teratas
Peringkat
Favorit
