OpenAI a-t-il réalisé un RL à très long épisode avec ce modèle expérimental ? Capture d'écran de l'article de @natolambert sur "Ce qui vient ensuite avec l'apprentissage par renforcement". Nathan dit dans cet article - Alors que les méthodes actuelles génèrent 10K-100K tokens par réponse pour des problèmes mathématiques ou de code pendant l'entraînement, le type de problèmes dont les gens discutent l'application de l'entraînement RL de nouvelle génération serait de 1M-100M tokens par réponse. Cela implique d'envelopper plusieurs appels d'inférence, invites et interactions avec un environnement au sein d'un seul épisode contre lequel la politique est mise à jour. Peut-être que cette percée est une combinaison des deux - RL à très long épisode et mise à l'échelle de TTC à 1M-100M tokens par réponse !
Alexander Wei
Alexander Wei19 juil., 15:50
5/N En plus du résultat lui-même, je suis enthousiaste à propos de notre approche : nous atteignons ce niveau de capacité non pas par une méthodologie étroite et spécifique à une tâche, mais en ouvrant de nouvelles voies dans l'apprentissage par renforcement à usage général et l'échelle de calcul au moment du test.
9,01K