Je n'ai pas beaucoup tweeté ces deux derniers mois car j'ai passé du temps à apprendre et à expérimenter diverses techniques d'apprentissage par renforcement. J'ai hâte de partager bientôt quelques travaux en cours : 1. Recette optimale en termes de calcul pour l'entraînement GRPO 2. Outil alimenté par l'apprentissage par renforcement pour améliorer la confidentialité dans les interactions avec les LLM Les expériences ont été prometteuses 👀
3,76K