cela semble vraiment important : il est tout à fait plausible qu'un modèle puisse obtenir de l'or IMO sans *aucun* apprentissage par renforcement, étant donné un prompt parfaitement conçu. nous ne savons tout simplement pas, et nous manquons d'outils pour explorer efficacement l'espace des prompts. content de voir qu'au moins quelqu'un essaie.
Lakshya A Agrawal
Lakshya A Agrawal29 juil. 2025
Comment l'optimisation des prompts se compare-t-elle aux algorithmes RL comme GRPO ? GRPO nécessite des milliers de déploiements, mais les humains peuvent apprendre à partir de quelques essais—en réfléchissant à ce qui a fonctionné et à ce qui n'a pas fonctionné. Découvrez GEPA : un optimiseur de prompts réflexif qui peut surpasser GRPO de jusqu'à 20 % avec 35 fois moins de déploiements !🧵
38,32K