это кажется действительно важным: вполне возможно, что модель могла бы получить IMO золото без *какого-либо* обучения с подкреплением, если бы был идеально составленный запрос мы просто не знаем и не имеем инструментов для эффективного поиска в пространстве запросов. рад видеть, что хотя бы кто-то пытается
Lakshya A Agrawal
Lakshya A Agrawal29 июл. 2025 г.
Как оптимизация подсказок соотносится с алгоритмами RL, такими как GRPO? GRPO требует тысяч запусков, но люди могут учиться на нескольких попытках — размышляя о том, что сработало, а что нет. Познакомьтесь с GEPA: рефлексивным оптимизатором подсказок, который может превзойти GRPO на 20% с 35 раз меньшим количеством запусков!🧵
38,46K