Bardzo dziękuję Ferdinandowi za zorganizowanie tej rozmowy! To była świetna okazja, aby omówić wszystkie części SWARM i szczegółowo przedyskutować motywacje stojące za nimi. Mam nadzieję, że ten film sprawi, że zdecentralizowane DL będzie bardziej dostępne: wiele pomysłów w tej dziedzinie jest prostszych, niż się wydaje!
Ferdinand Mom
Ferdinand Mom12 cze 2025
Recenzja wideo artykułu badawczego na temat "Swarm Parallelism" wraz z autorem @m_ryabinin, Wybitnym Naukowcem Badawczym @togethercompute jest już dostępna! Link poniżej 👇 Dla kontekstu, większość zdecentralizowanego treningu dzisiaj opiera się na podejściu DDP, które wymaga pełnej replikacji modelu na każdym węźle. Chociaż jest to praktyczne dla tych, którzy mają do dyspozycji klastry H100, pozostaje to poza zasięgiem dla ogromnej większości potencjalnych współpracowników, tutaj SWARM staje się przydatny!
3,06K