🎉 Lucrarea noastră "Cum să vă instruiți agentul web LLM: Un diagnostic statistic" a primit un oral la atelierul ICML de săptămâna viitoare privind agenții de utilizare a computerelor! 🖥️🧠 Prezentăm primul studiu la scară largă al compromisurilor de calcul între SFT pur, RL pur și SFT + RL hibrid pentru agenți în mai mulți pași. SFT ➡️ RL împinge frontul Pareto - și este singura strategie care reduce decalajul cu modelele închise! 👇🧵
23,82K