Isso parece muito importante: é totalmente plausível que um modelo possa obter ouro IMO sem *qualquer* aprendizado por reforço, dado um prompt perfeitamente elaborado simplesmente não sabemos e não temos ferramentas para pesquisar com eficiência no espaço de prompt. fico feliz em ver que pelo menos alguém está tentando
Lakshya A Agrawal
Lakshya A Agrawal29 de jul. de 2025
Como a otimização imediata se compara a algoritmos RL como GRPO? O GRPO precisa de 1000 lançamentos, mas os humanos podem aprender com algumas tentativas - refletindo sobre o que funcionou e o que não funcionou. Conheça o GEPA: um otimizador de prompt reflexivo que pode superar o GRPO em até 20% com 35 vezes menos implementações! 🧵
38,46K