Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Quelqu'un a-t-il essayé le RL pour réécrire des prompts pour des modèles de raisonnement afin d'améliorer encore les résultats ?
Je suppose que oui, cela semble assez évident, mais si ce n'est pas le cas, je veux essayer.
Si vous connaissez des travaux existants à ce sujet, faites-le moi savoir pour que je ne refasse pas quelque chose que d'autres ont déjà fait !
Par cela, je veux dire :
- Prendre un modèle de raisonnement déjà entraîné et figé (c'est-à-dire o4-mini via API)
- Ajouter un LLM plus petit qui prend un prompt et le réécrit pour améliorer la performance du modèle figé
- Mettre à jour les poids du LLM plus petit, garder le LLM plus grand figé
L'espoir est que le petit LLM apprenne à 'diriger' le CoT du modèle plus grand figé mieux qu'un humain ne pourrait le faire, augmentant ainsi la performance.
@corbtt m'a rappelé ce travail de @brendanh0gan...
Brendan, comment ça s'est passé ? Ça semble assez similaire à ce que je pense ici.

3 juil., 08:26
les grands modèles sont de grands agents mais souvent trop grands, fermés ou délicats pour être ajustés
idée : entraîner un petit modèle pour créer un contexte pour un grand modèle figé, évaluer les sorties du grand modèle, utiliser cela comme récompense pour le petit
groupe pour l'ajustement du contexte. plus d'infos ci-dessous

17,57K
Meilleurs
Classement
Favoris