Супер акуратний трубопровід, якщо узагальнити їх: 1. перефразувати вказаний користувачем запит на завдання, 2. генерувати кілька (n=25) різноманітних прикладів синтетичного навчання (використовуючи ICL з великим контекстним вікном для забезпечення різноманітності), 3. модель поїзда з GRPO + LoRA, використовуючи рубрики RULER як винагороду
Matt Shumer
Matt Shumer30 лип. 2025 р.
Представляємо 'AutoRL' 📈 Найпростіший у світі спосіб тренування LLM для конкретного завдання за допомогою RL. *Просто напишіть РЕЧЕННЯ з описом моделі, яку ви хочете.* Ланцюжок систем штучного інтелекту згенерує дані + рубрики та навчить модель для вас. Працює на основі ART і має відкритий вихідний код. Посилання в темі:
5,74K