Exécution de Kimi-K2.5 sur 8x RTX Pro 6000 Blackwells, avec des plans pour tester éventuellement une configuration d'inférence hybride CPU/GPU via KTransformers+SGLang sur 4x des mêmes GPU Très curieux d'évaluer la performance globale avec la configuration hybride par rapport à un ajustement quantifié de Kimi-K2.5 sur les 4 GPU. La configuration hybride nécessitera près de 768 Go de RAM Pour commencer, voici une référence sur 8x GPU utilisant une charge de travail de style agent de codage synthétique ciblant 2k-45k tokens d'entrée, 80-3k tokens de sortie max, et avec jusqu'à 10 requêtes concurrentes. Le drapeau --mem-fraction-static de SGLang est réglé sur 0,90 Débit moyen de référence : ~74 tokens de sortie/s @ 10 requêtes concurrentes