Wir haben viele Basis-Modelle anhand von Perplexitäts-basierten Bewertungen evaluiert, und Kimi k2.5 hat sich als das stärkste erwiesen! Danach führen wir ein fortgesetztes Pre-Training und hochrechenintensive RL (eine 4-fache Skalierung) durch. Die Kombination aus dem starken Basis-Modell, CPT und RL sowie den Inferenz- und RL-Samplern von Fireworks macht Composer-2 auf dem neuesten Stand der Technik. Es war ein Fehler, das Kimi-Basis-Modell von Anfang an in unserem Blog nicht zu erwähnen. Das werden wir für das nächste Modell korrigieren.