Quelqu'un a-t-il essayé le RL pour réécrire des prompts pour des modèles de raisonnement afin d'améliorer encore les résultats ? Je suppose que oui, cela semble assez évident, mais si ce n'est pas le cas, je veux essayer. Si vous connaissez des travaux existants à ce sujet, faites-le moi savoir pour que je ne refasse pas quelque chose que d'autres ont déjà fait !
Par cela, je veux dire : - Prendre un modèle de raisonnement déjà entraîné et figé (c'est-à-dire o4-mini via API) - Ajouter un LLM plus petit qui prend un prompt et le réécrit pour améliorer la performance du modèle figé - Mettre à jour les poids du LLM plus petit, garder le LLM plus grand figé L'espoir est que le petit LLM apprenne à 'diriger' le CoT du modèle plus grand figé mieux qu'un humain ne pourrait le faire, augmentant ainsi la performance.
@corbtt m'a rappelé ce travail de @brendanh0gan... Brendan, comment ça s'est passé ? Ça semble assez similaire à ce que je pense ici.
Brendan Hogan
Brendan Hogan3 juil., 08:26
les grands modèles sont de grands agents mais souvent trop grands, fermés ou délicats pour être ajustés idée : entraîner un petit modèle pour créer un contexte pour un grand modèle figé, évaluer les sorties du grand modèle, utiliser cela comme récompense pour le petit groupe pour l'ajustement du contexte. plus d'infos ci-dessous
17,57K