Běžím na Kimi-K2.5 na 8x RTX Pro 6000 Blackwell s plánem nakonec otestovat hybridní inferenční nastavení CPU/GPU přes KTransformers+SGLang na 4x stejných GPU Jsem velmi zvědavý na celkový výkon hybridního uspořádání ve srovnání s kvantizovaným Kimi-K2.5 na všech čtyřech GPU. Hybridní sestava bude potřebovat téměř 768GB RAM Na začátek zde je základní přehled 8x GPU používajících syntetický kódovací agent styl pracovní zátěže zaměřené na 2k-45k vstupní tokeny, 80-3k max výstupní tokeny a až 10 současných požadavků. SGLangův příznak --mem-fraction-static je nastaven na 0,90 Průměrná propustnost na základní úrovni: ~74 výstupních tokenů/s @ 10 současných požadavků