Käytössä on Kimi-K2.5 8x RTX Pro 6000 Blackwellsillä, ja suunnitelmissa on testata CPU/GPU-hybridipäättelyjärjestelmää KTransformers+SGLangin avulla neljällä samoilla näytönohjaimilla Olen todella utelias arvioimaan hybridikokoonpanon kokonaissuorituskykyä verrattuna kvantisoituun Kimi-K2.5-sovitukseen neljän GPU:n välillä. Hybridijärjestelmä vaatii lähes 768GB RAM-muistia Aluksi tässä on vertailukohta 8x GPU:lle käyttäen synteettistä koodausagenttityyppistä työkuormaa, joka kohdistuu 2k-45k input tokeneihin, 80-3k maksimilähtötokeneihin ja jopa 10 samanaikaiseen pyyntöön. SGLangin --mem-fraction-staattinen lippu on asetettu arvoon 0,90 Peruskeskimääräinen läpimeno: ~74 lähtötokenia/s @ 10 samanaikaista pyyntöä