Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Exécution de Kimi-K2.5 sur 8x RTX Pro 6000 Blackwells, avec des plans pour tester éventuellement une configuration d'inférence hybride CPU/GPU via KTransformers+SGLang sur 4x des mêmes GPU
Très curieux d'évaluer la performance globale avec la configuration hybride par rapport à un ajustement quantifié de Kimi-K2.5 sur les 4 GPU. La configuration hybride nécessitera près de 768 Go de RAM
Pour commencer, voici une référence sur 8x GPU utilisant une charge de travail de style agent de codage synthétique ciblant 2k-45k tokens d'entrée, 80-3k tokens de sortie max, et avec jusqu'à 10 requêtes concurrentes. Le drapeau --mem-fraction-static de SGLang est réglé sur 0,90
Débit moyen de référence :
~74 tokens de sortie/s @ 10 requêtes concurrentes

Meilleurs
Classement
Favoris
