isto parece realmente importante: é totalmente plausível que um modelo possa obter IMO gold sem *nenhuma* aprendizagem por reforço, dado um prompt perfeitamente elaborado nós apenas não sabemos, e faltam ferramentas para pesquisar de forma eficiente no espaço de prompts. feliz por ver que pelo menos alguém está tentando
Lakshya A Agrawal
Lakshya A Agrawal29/07/2025
Como a otimização de prompts se compara a algoritmos de RL como o GRPO? O GRPO precisa de milhares de rollouts, mas os humanos podem aprender com algumas tentativas—refletindo sobre o que funcionou e o que não funcionou. Conheça o GEPA: um otimizador de prompts reflexivo que pode superar o GRPO em até 20% com 35 vezes menos rollouts!🧵
38,45K