Muito obrigado a Ferdinand por hospedar esta conversa! Foi uma ótima oportunidade para ter uma visão geral de todas as partes do SWARM e discutir a motivação por trás delas em profundidade. Espero que este vídeo torne o DL descentralizado mais acessível: muitas ideias no campo são mais simples do que parecem!
Ferdinand Mom
Ferdinand Mom12 de jun. de 2025
A revisão do vídeo do artigo de pesquisa sobre "Paralelismo de enxame" junto com o autor @m_ryabinin, Distinguished Research Scientist @togethercompute já foi lançada! Link abaixo 👇 Para contextualizar, a maioria dos treinamentos descentralizados hoje segue abordagens no estilo DDP que exigem replicação completa do modelo em cada nó. Embora prático para aqueles com clusters H100 à sua disposição, isso permanece fora do alcance da grande maioria dos contribuidores em potencial, é aqui que o SWARM é útil!
3,06K