Nous avons évalué de nombreux modèles de base sur des évaluations basées sur la perplexité et Kimi k2.5 s'est avéré être le plus performant ! Après cela, nous procédons à un pré-entraînement continu et à un RL à haute capacité (un passage à l'échelle 4x). La combinaison de la base solide, du CPT et du RL, ainsi que des échantillonneurs d'inférence et de RL de Fireworks, fait de Composer-2 un niveau de pointe. C'était une erreur de ne pas mentionner la base Kimi dans notre blog dès le départ. Nous corrigerons cela pour le prochain modèle.