Видеорецензия научной работы на тему "Параллелизм роя" с автором @m_ryabinin, выдающимся научным сотрудником @togethercompute, теперь доступна! Ссылка ниже 👇 Для контекста, большинство децентрализованных обучений сегодня следуют подходам в стиле DDP, требующим полной репликации модели на каждом узле. Хотя это практично для тех, у кого есть кластеры H100, это остается недоступным для подавляющего большинства потенциальных участников, здесь на помощь приходит SWARM!
13,48K