🎉 Náš článek "Jak vyškolit svého webového agenta LLM: Statistická diagnóza" dostal ústní projev na workshopu ICML o agentech pro použití počítače, který se koná příští týden! 🖥️🧠 Představujeme první rozsáhlou studii výpočetních kompromisů mezi čistým SFT, čistým RL a hybridním SFT+RL pro vícekrokové agenty. SFT ➡️ RL posouvá Pareta na špičku – a je to jediná strategie, která uzavírá mezeru u uzavřených modelů! 👇🧵
23,8K