Dette virker veldig viktig: det er helt plausibelt at en modell kan få IMO-gull uten *noen* forsterkende læring, gitt en perfekt utformet forespørsel Vi vet bare ikke, og mangler verktøy for å effektivt søke gjennom Prompt Space. Glad for å se at i det minste noen prøver
Lakshya A Agrawal
Lakshya A Agrawal29. juli 2025
Hvordan er rask optimalisering sammenlignet med RL-alger som GRPO? GRPO trenger 1000-vis av utrullinger, men mennesker kan lære av noen få forsøk – ved å reflektere over hva som fungerte og hva som ikke gjorde det. Møt GEPA: en reflekterende forespørselsoptimalisering som kan overgå GRPO med opptil 20 % med 35 ganger færre utrullinger! 🧵
38,32K