🎉 Vårt papper "Hur man tränar din LLM Web Agent: En statistisk diagnos" fick en muntlig vid nästa veckas ICML Workshop om Computer Use Agents! 🖥️🧠 Vi presenterar den första storskaliga studien av beräkningsavvägningar mellan ren SFT, ren RL och hybrid SFT+RL för flerstegsagenter. SFT ➡️ RL tänjer på Pareto-fronten – och det är den enda strategin som överbryggar gapet med slutna modeller! 👇🧵
23,82K