可能是迄今为止去中心化训练领域最大的一周,紧随ICLR之后,还有更多内容即将发布。当前情况总结如下: 1. 去中心化RL后训练显然有效。@gensynai 最近在这方面取得了很好的结果。这个过程需要一个强大的基础模型,将其副本分发给参与者,参与者生成推理轨迹,然后收集这些轨迹以改进基础模型。这显然依赖于基础模型的可用性/开放权重,并且比预训练便宜得多。节点只需进行推理。缺点是有越来越多的证据(而且非常直观)表明无法通过RL超越糟糕的基础模型。因此,您保留了依赖性。我们需要等待这些运行的结果,但现实是这个过程将以某种方式奏效,因为这个过程非常容易并行化。 2. 数据并行(DP)预训练看起来不错。@NousResearch 和 @PrimeIntellect 已经在10B规模模型尺寸上取得了成果。将其扩展到100B案例将非常简单(但对节点运营商来说很昂贵)。这是因为在DP中每个节点都保留模型的完整副本,因此例如需要8xh100s来训练10b大小;您不能使用小卡。因此,您可以通过扩展节点来扩展此技术并进行跨数据中心协作训练(即每个节点由大约100个H100组成,并且您训练>100b模型)。您还面临每个人都看到模型的完整副本的问题,因此不清楚如何货币化(协议学习解决了这个问题)。 3. 模型并行(模型本身在节点之间分割——想象一下1000个地理位置分散的Macbook训练一个100b参数模型,每个设备只有总模型的一小部分)开始显示出可能的迹象。我们(@PluralisHQ)发表了“超越Top k”论文,该论文将节点之间的通信压缩超过90%,以及另外两项工作表明您可以在流水线并行(PP)设置中使用异构设备。我们的Nesterov方法也被ICML2025接受,据我所知,这是自原始SWARM论文以来第一个被主要AI会议接受的去中心化训练论文,应该有助于激发主流AI圈子的兴趣。 去中心化模型并行解决了吗 → 没有。与数据中心相比,通信带宽要差得多,即使90%也不够。我们需要达到大约300倍的压缩才能与集中训练达到平价。是否可能实现这一目标仍然是一个巨大的问题——通过这样做,您正在破坏大量的训练信号。这是Pluralis的重点。 然而,如果这项工作成功会发生什么?首次可以进行真正的协作预训练。没有对deepseek或Meta的依赖。个人可以结合计算能力从头开始创建这种规模的模型。我们在这里实现了迄今为止从未存在过的实际社区驱动的创新。然后可以使用去中心化的基于RL的后训练来使这些模型变得更好。 现实是我们正处于某些重大事件发生的最初阶段。这将成为一个重要领域。上述公司正在全力以赴,更多内容即将发布,我预计从现在开始直到发生任何事情都不会减速。如果您正在阅读这篇文章,您就处于早期阶段。
14.21K