Як оперативна оптимізація порівнюється з RL algos, такими як GRPO? GRPO потребує 1000 розгортань, але люди можуть вчитися на кількох випробуваннях, розмірковуючи про те, що спрацювало, а що ні. Зустрічайте GEPA: оптимізатор рефлексивних підказок, який може перевершити GRPO до 20% завдяки в 35 разів меншій кількості розгортань! 🧵
231,42K