Une cerise de la taille d'un melon sur le dessus :)
Shane Gu
Shane Gu11 juil., 06:22
2023 : chez OpenAI, certaines figures clés dans le post-entraînement étaient contre l'extension de l'apprentissage par renforcement. 2022 : Eric/Yuhuai (maintenant xAI) a écrit STaR et j'ai écrit "LLM peut s'améliorer tout seul". Il était clair que l'apprentissage par renforcement sur des signaux propres débloque le prochain saut. La division pré/post-entraînement a peut-être été un grand frein à l'IA.
13,62K