torchtitan створив підтримку HSDP + diloco, це, мабуть, найкраще місце зараз для початку проведення досліджень децентралізованого навчання. Він також має підтримку для багатьох арок (llama3, llama4, deepseekv3...), а також для всіх можливих паралелізмів (6d?). Тут готувала команда Pytorch
15,62K