トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
8台のRTX Pro 6000 BlackwellでKimi-K2.5を運用しており、最終的にはKTransformers+SGLangを使ったCPU/GPUハイブリッド推論セットアップを同じGPU4台でテストする予定です
ハイブリッドセットアップと、4GPUに量子化されたKimi-K2.5を合わせた場合の全体的な性能を比較してみたいです。ハイブリッド構成では約768GBのRAMが必要です
まず、8xGPUを使った合成コーディングエージェントスタイルのワークロードをベースラインで示します。対象は2k〜45kの入力トークン、最大80〜3kの出力トークン、最大10の同時リクエストです。SGLangの--mem-fraction-staticフラグは0.90に設定されています
ベースライン平均スループット:
~74トークン/秒 @ 10件の同時リクエスト

トップ
ランキング
お気に入り
