¡La revisión en video del artículo de investigación sobre "Paralelismo de Enjambre" junto con el autor @m_ryabinin, Científico Investigador Distinguido @togethercompute ya está disponible! Enlace abajo 👇 Para dar contexto, la mayoría de los entrenamientos descentralizados hoy en día siguen enfoques estilo DDP que requieren una replicación completa del modelo en cada nodo. Si bien es práctico para aquellos que tienen clústeres H100 a su disposición, esto sigue estando fuera del alcance de la gran mayoría de los posibles contribuyentes, ¡aquí es donde SWARM resulta útil!
13,48K