Vår muntliga är imorgon kl. 14:40 PDT under @icmlconf:s workshop om datoranvändningsagenter (Västra mötesrummet 211–214)! Deltar du virtuellt? Zoom-länk och detaljer här:
Massimo Caccia
Massimo Caccia9 juli 23:17
🎉 Vårt papper "Hur man tränar din LLM Web Agent: En statistisk diagnos" fick en muntlig vid nästa veckas ICML Workshop om Computer Use Agents! 🖥️🧠 Vi presenterar den första storskaliga studien av beräkningsavvägningar mellan ren SFT, ren RL och hybrid SFT+RL för flerstegsagenter. SFT ➡️ RL tänjer på Pareto-fronten – och det är den enda strategin som överbryggar gapet med slutna modeller! 👇🧵
3,06K