「Swarm Parallelism」に関する研究論文のビデオレビューと、著者@m_ryabininであるDistinguished Research Scientist @togethercomputeが公開されました!以下の👇リンク 参考までに、今日のほとんどの分散型トレーニングは、各ノードで完全なモデルのレプリケーションを必要とするDDPスタイルのアプローチに従っています。H100クラスターを自由に使える人にとっては実用的ですが、これは潜在的な貢献者の大多数にとって手の届かないところにあり、SWARMが役立つ場所です。
13.47K