To se zdá být opravdu důležité: je zcela pravděpodobné, že model by mohl získat zlato IMO bez *jakéhokoliv* zpětnovazebního učení, vzhledem k perfektně vytvořenému podnětu Prostě nevíme a chybí nám nástroje pro efektivní prohledávání promptního prostoru. Jsem rád, že se alespoň někdo snaží
Lakshya A Agrawal
Lakshya A Agrawal29. 7. 2025
Jak si stojí rychlá optimalizace ve srovnání s algoritmy RL, jako je GRPO? GRPO potřebuje tisíce rolloutů, ale lidé se mohou poučit z několika testů – tím, že se zamyslí nad tím, co fungovalo a co ne. Seznamte se s GEPA: reflexním optimalizátorem výzev, který dokáže překonat GRPO až o 20 % s 35x menším počtem nasazení! 🧵
38,32K