🎉 حصلت ورقتنا البحثية "كيفية تدريب وكيل الويب الخاص بك في LLM: تشخيص إحصائي" على شفوي في ورشة عمل ICML الأسبوع المقبل حول وكلاء استخدام الكمبيوتر! 🖥️🧠 نقدم أول دراسة واسعة النطاق لمقايضات الحوسبة بين SFT النقي و RL النقي و SFT + RL الهجين للوكلاء متعدد الخطوات. يدفع SFT ➡️ RL مقدمة Pareto - وهي الإستراتيجية الوحيدة التي تسد الفجوة مع النماذج المغلقة! 👇🧵
‏‎23.81‏K