Как оптимизация подсказок соотносится с алгоритмами RL, такими как GRPO? GRPO требует тысяч запусков, но люди могут учиться на нескольких попытках — размышляя о том, что сработало, а что нет. Познакомьтесь с GEPA: рефлексивным оптимизатором подсказок, который может превзойти GRPO на 20% с 35 раз меньшим количеством запусков!🧵
231,42K