esto parece realmente importante: es totalmente plausible que un modelo pudiera obtener IMO gold sin *ningún* aprendizaje por refuerzo, dado un aviso perfectamente elaborado simplemente no lo sabemos, y carecemos de herramientas para buscar de manera eficiente a través del espacio de avisos. me alegra ver que al menos alguien está intentando
Lakshya A Agrawal
Lakshya A Agrawal29 jul 2025
¿Cómo se compara la optimización rápida con algoritmos de RL como GRPO? GRPO necesita miles de implementaciones, pero los humanos pueden aprender de algunas pruebas, reflexionando sobre lo que funcionó y lo que no. Conozca GEPA: un optimizador de avisos reflexivos que puede superar a GRPO hasta en un 20% con 35 veces menos implementaciones. 🧵
38.31K