🎉 Наша стаття "Як навчити вашого веб-агента LLM: статистичний діагноз" отримала усну підтримку на семінарі ICML з використання комп'ютерних агентів наступного тижня! 🖥️🧠 Ми представляємо перше великомасштабне дослідження обчислювальних компромісів між чистим SFT, чистим RL і гібридним SFT+RL для багатокрокових агентів. SFT ➡️ RL штовхає фронт Парето — і це єдина стратегія, яка скорочує розрив із закритими моделями! 👇🧵
23,81K