Réflexions/prédictions sur l'entraînement d'IA décentralisé, 2025. 1. Une chose à dire est que nous sommes définitivement dans un monde différent avec l'entraînement d'IA décentralisé par rapport à il y a 18 mois. À l'époque, l'entraînement décentralisé était impossible et maintenant, il est sur le marché et constitue un domaine. 2. Ne vous y trompez pas, l'objectif final de l'entraînement décentralisé est de former des modèles compétitifs et de pointe sur des réseaux décentralisés. En tant que tel, nous ne sommes qu'au début de notre parcours compétitif, mais nous avançons rapidement. 3. Il est désormais consensuel que nous pouvons pré-entraîner et post-entraîner des modèles de plusieurs milliards de paramètres (principalement des LLM, principalement des architectures de transformateurs) sur des réseaux décentralisés. L'état actuel de l'art atteint jusqu'à ~100B, le haut de gamme étant en vue mais n'ayant pas encore été montré. 4. Il est désormais consensuel que nous pouvons entraîner des modèles de <10B paramètres sur des réseaux décentralisés de manière assez réalisable. Il y a également eu des études de cas spécifiques (principalement de @gensynai @PrimeIntellect @NousResearch) où des modèles de 10B, 32B, 40B paramètres ont été ou sont en cours d'entraînement. Le groupe de post-entraînement de @gensynai fonctionne sur des modèles allant jusqu'à 72B paramètres. 5. L'innovation de @PluralisHQ a maintenant invalidé l'"impossibilité" de pré-entraînement évolutif sur des réseaux décentralisés en éliminant le goulot d'étranglement de l'inefficacité de communication. Cependant, les FLOPs bruts, la fiabilité et la vérifiabilité restent des goulots d'étranglement pour ces types de réseaux -- des problèmes qui sont très solvables mais qui prendront un certain temps à résoudre techniquement. Avec l'apprentissage par protocole de Pluralis tel qu'il est, je pense que nous atteindrons des modèles d'environ 100B dans un délai de 6 à 12 mois. 6. Comment passer de modèles de 100B à 300B paramètres ? Je pense que nous devons trouver des moyens de fragmenter les paramètres de manière efficace et fluide et de garder la mémoire individuelle des appareils relativement basse (par exemple, <32 Go de mémoire par appareil). Je pense que nous devons atteindre 20 EFlops dans un réseau ; cela signifie quelque chose comme 10-20K appareils consommateurs fonctionnant pendant 4-6 semaines sur un entraînement. Dans l'ensemble, l'entraînement décentralisé est sur le point d'être un domaine très excitant. Certaines de ses innovations sont déjà considérées pour des applications d'IA larges.
4,18K