🎉 私たちの論文「How to Train Your LLM Web Agent: A Statistical Diagnosis」が、来週のICML Workshop on Computer Use Agentsで口頭発表されました。🖥️🧠 ここでは、マルチステップエージェントの純粋なSFT、純粋なRL、およびハイブリッドSFT+RL間のコンピューティングのトレードオフに関する最初の大規模な研究を紹介します。 SFT ➡️ RLはパレートの前面を押し広げます—そしてそれは閉じたモデルとのギャップを埋める唯一の戦略です! 👇🧵
23.81K