La revisión en video del trabajo de investigación sobre "Paralelismo de enjambre" junto con el autor @m_ryabinin, Distinguido Científico Investigador @togethercompute ya está disponible. Enlace a continuación 👇 Para contextualizar, la mayoría de la capacitación descentralizada actual sigue enfoques de estilo DDP que requieren la replicación completa del modelo en cada nodo. Si bien es práctico para aquellos con clústeres H100 a su disposición, esto sigue estando fuera del alcance de la gran mayoría de los contribuyentes potenciales, ¡aquí es donde SWARM resulta útil!
13.47K