La vidéo de revue de l'article de recherche sur "Swarm Parallelism" avec l'auteur @m_ryabinin, Chercheur Distingué @togethercompute est maintenant disponible ! Lien ci-dessous 👇 Pour donner un peu de contexte, la plupart des formations décentralisées aujourd'hui suivent des approches de type DDP nécessitant une réplication complète du modèle sur chaque nœud. Bien que cela soit pratique pour ceux qui disposent de clusters H100, cela reste hors de portée pour la grande majorité des contributeurs potentiels, c'est là que SWARM devient utile !
13,47K