1/ Представляємо новий бекенд RL Swarm: GenRL. Модульна навчальна бібліотека з підкріпленням, створена для розподіленого, відмовостійкого навчання, тепер живить RL Swarm з нуля. 🧵
2/ Кожен працівник запускає свій власний екземпляр середовища, асинхронно вносить свій внесок у спільний буфер розгортання та незалежно оновлює вагу своєї моделі, тому центральний контролер не потрібен.
3/ GenRL дозволяє RL Swarm працювати з будь-яким середовищем, описаним інтуїтивно за допомогою коду. Цей запуск включає в себе Reasoning Gym з коробки, що надає доступ до >100 середовищ, створених спільнотою, без необхідності додаткової конфігурації.
4/ Що нового: – Модульний бекенд GenRL – Розширена конфігураційна поверхня – Попередньо створений образ Docker для легкого розгортання – Середовище Reasoning Gym для покращення можливостей міркування моделі – Новий багатозадачний рій
5/ Зараз прямий ефір у тестнеті Gensyn. Ви можете запустити RL-Swarm з GenRL вже сьогодні. Повний код + налаштування:
52,15K