dit lijkt echt belangrijk: het is volkomen plausibel dat een model IMO goud kan krijgen zonder *enige* reinforcement learning, gegeven een perfect geformuleerde prompt we weten het gewoon niet, en we missen de tools om efficiënt door de promptruimte te zoeken. blij te zien dat in ieder geval iemand het probeert
Lakshya A Agrawal
Lakshya A Agrawal29 jul 2025
Hoe verhoudt promptoptimalisatie zich tot RL-algoritmes zoals GRPO? GRPO heeft duizenden rollouts nodig, maar mensen kunnen leren van een paar pogingen—door na te denken over wat werkte en wat niet. Maak kennis met GEPA: een reflectieve promptoptimizer die GRPO tot 20% kan overtreffen met 35x minder rollouts!🧵
38,46K