🎉 Vår artikkel "Hvordan trene din LLM Web Agent: En statistisk diagnose" fikk en muntlig på neste ukes ICML Workshop on Computer Use Agents! 🖥️🧠 Vi presenterer den første storskala studien av databehandlingsavveininger mellom ren SFT, ren RL og hybrid SFT+RL for flertrinnsagenter. SFT ➡️ RL presser Pareto-fronten – og det er den eneste strategien som lukker gapet med lukkede modeller! 👇🧵
23,8K