questo sembra davvero importante: è del tutto plausibile che un modello possa ottenere IMO gold senza *alcun* apprendimento per rinforzo, dato un prompt perfettamente elaborato non lo sappiamo, e ci mancano gli strumenti per cercare in modo efficiente nello spazio dei prompt. sono contento di vedere che almeno qualcuno ci sta provando
Lakshya A Agrawal
Lakshya A Agrawal29 lug 2025
Come si confronta l'ottimizzazione dei prompt con gli algoritmi RL come GRPO? GRPO ha bisogno di migliaia di rollout, ma gli esseri umani possono imparare da pochi tentativi, riflettendo su ciò che ha funzionato e ciò che non ha funzionato. Incontra GEPA: un ottimizzatore di prompt riflessivo che può superare GRPO fino al 20% con 35 volte meno rollout!🧵
38,31K