Come si confronta l'ottimizzazione dei prompt con gli algoritmi RL come GRPO? GRPO ha bisogno di migliaia di rollout, ma gli esseri umani possono imparare da pochi tentativi, riflettendo su ciò che ha funzionato e ciò che non ha funzionato. Incontra GEPA: un ottimizzatore di prompt riflessivo che può superare GRPO fino al 20% con 35 volte meno rollout!🧵
231,41K