🎉 Nosso artigo "Como treinar seu agente da Web LLM: um diagnóstico estatístico" foi publicado no Workshop do ICML sobre Agentes de Uso de Computador da próxima semana! 🖥️🧠 Apresentamos o primeiro estudo em larga escala de trade-offs de computação entre SFT puro, RL puro e SFT+RL híbrido para agentes de várias etapas. SFT ➡️ RL empurra a frente de Pareto - e é a única estratégia que fecha a lacuna com modelos fechados! 👇🧵
23,82K