🎉 Наша работа "𝐻𝑜𝑤 𝑡𝑜 𝑇𝑟𝑎𝑖𝑛 𝑌𝑜𝑢𝑟 𝐿𝐿𝑀 𝑊𝑒𝑏 𝐴𝑔𝑒𝑛𝑡: 𝐴 𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑎𝑙 𝐷𝑖𝑎𝑔𝑛𝑜𝑠𝑖𝑠" получила 𝐨𝐫𝐚𝐥 на семинаре 𝗜𝗖𝗠𝗟 𝗪𝗼𝗿𝗸𝘀𝗵𝗼𝗽 𝗼𝗻 𝗖𝗼𝗺𝗽𝘂𝘁𝗲𝗿 𝗨𝘀𝗲 𝗔𝗴𝗲𝗻𝘁𝘀 на следующей неделе! 🖥️🧠 Мы представляем 𝐟𝐢𝐫𝐬𝐭 𝐥𝐚𝐫𝐠𝐞-𝐬𝐜𝐚𝐥𝐞 𝐬𝐭𝐮𝐝𝐲 𝐨𝐟 𝐜𝐨𝐦𝐩𝐮𝐭𝐞 𝐭𝐫𝐚𝐝𝐞-𝐨𝐟𝐟𝐬 между чистым SFT, чистым RL и гибридным SFT+RL для многошаговых агентов. SFT ➡️ RL продвигает фронт Парето — и это 𝐨𝐧𝐥𝐲 стратегия, которая сокращает разрыв с закрытыми моделями! 👇🧵
23,81K