torchtitan создал HSDP с поддержкой diloco, это, вероятно, лучшее место для начала исследований в области децентрализованного обучения. Он также поддерживает множество архитектур (llama3, llama4, deepseekv3...) и все возможные параллелизмы (6d?). Команда Pytorch здесь постаралась.
15,29K