Запуск Kimi-K2.5 на 8x RTX Pro 6000 Blackwells, с планами в конечном итоге протестировать гибридную настройку вывода CPU/GPU через KTransformers+SGLang на 4x тех же GPU Очень интересно оценить общую производительность гибридной настройки по сравнению с квантованной Kimi-K2.5, настроенной на 4 GPU. Гибридной настройке потребуется около 768 ГБ ОЗУ Для начала вот базовая линия по 8x GPU, используя синтетическую нагрузку в стиле кодирующего агента, нацеливающуюся на 2k-45k входных токенов, 80-3k максимальных выходных токенов и с до 10 одновременными запросами. Флаг --mem-fraction-static в SGLang установлен на 0.90 Средняя пропускная способность базовой линии: ~74 выходных токена/с при 10 одновременных запросах