Це здається дуже важливим: цілком імовірно, що модель може отримати золото IMO без *будь-якого* навчання з підкріпленням, за умови ідеально складеної підказки Ми просто не знаємо, і нам не вистачає інструментів для ефективного пошуку в оперативному просторі. радий бачити, що хоч хтось намагається
Lakshya A Agrawal
Lakshya A Agrawal29 лип. 2025 р.
Як оперативна оптимізація порівнюється з RL algos, такими як GRPO? GRPO потребує 1000 розгортань, але люди можуть вчитися на кількох випробуваннях, розмірковуючи про те, що спрацювало, а що ні. Зустрічайте GEPA: оптимізатор рефлексивних підказок, який може перевершити GRPO до 20% завдяки в 35 разів меншій кількості розгортань! 🧵
38,33K