🎉 Makalah kami "Cara Melatih Agen Web LLM Anda: Diagnosis Statistik" mendapat oral di Lokakarya ICML minggu depan tentang Agen Penggunaan Komputer! 🖥️🧠 Kami menyajikan studi skala besar pertama tentang trade-off komputasi antara SFT murni, RL murni, dan SFT+RL hibrida untuk agen multi-langkah. SFT ➡️ RL mendorong Pareto ke depan — dan itu satu-satunya strategi yang menutup celah dengan model tertutup! 👇🧵
23,82K