この対談を主催してくれたFerdinandさん、本当にありがとうございました!SWARMのすべての部分を概観し、その背後にある動機について深く議論する絶好の機会でした。 この動画を読んで、分散型DLがもっと身近なものになることを願っています:この分野のアイデアは思ったよりシンプルなものが多いです!
Ferdinand Mom
Ferdinand Mom2025年6月12日
「Swarm Parallelism」に関する研究論文のビデオレビューと、著者@m_ryabininであるDistinguished Research Scientist @togethercomputeが公開されました!以下の👇リンク 参考までに、今日のほとんどの分散型トレーニングは、各ノードで完全なモデルのレプリケーションを必要とするDDPスタイルのアプローチに従っています。H100クラスターを自由に使える人にとっては実用的ですが、これは潜在的な貢献者の大多数にとって手の届かないところにあり、SWARMが役立つ場所です。
3.05K