Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pensamientos/predicciones sobre el entrenamiento de IA descentralizada, 2025.
1. Una cosa que hay que decir es que definitivamente estamos en un mundo diferente con el entrenamiento de IA descentralizada que hace 18 meses. En ese entonces, el entrenamiento descentralizado era imposible y ahora está en el mercado y es un campo.
2. No se equivoquen, el objetivo final del d-training es entrenar modelos competitivos y de vanguardia en redes descentralizadas. Como tal, estamos apenas al inicio de nuestro viaje competitivo, pero nos estamos moviendo rápido.
3. Ahora hay consenso en que podemos pre-entrenar y post-entrenar modelos de varios miles de millones de parámetros (principalmente LLMs, principalmente arquitecturas de transformadores) en redes descentralizadas. El estado actual del arte es de hasta ~100B, el extremo superior de lo cual está a la vista pero no se ha mostrado.
4. Ahora hay consenso en que podemos entrenar modelos de <10B parámetros en redes descentralizadas de manera bastante factible. También ha habido estudios de caso específicos (principalmente de @gensynai @PrimeIntellect @NousResearch) donde se han entrenado o se están entrenando modelos de 10B, 32B, 40B parámetros. El enjambre de post-entrenamiento de @gensynai opera en modelos de hasta 72B parámetros.
5. La innovación de @PluralisHQ ha invalidado ahora la "imposibilidad" del pre-entrenamiento escalable en redes descentralizadas al eliminar el cuello de botella de la ineficiencia de comunicación. Sin embargo, los FLOPs brutos, la fiabilidad y la verificabilidad siguen siendo cuellos de botella para estos tipos de redes: problemas que son muy solucionables pero que llevarán tiempo resolver técnicamente. Con el Aprendizaje de Protocolo de Pluralis tal como está, creo que llegamos a modelos de ~100B en un plazo de 6-12 meses.
6. ¿Cómo pasamos de modelos de 100B a 300B parámetros? Creo que necesitamos encontrar formas de fragmentar parámetros de manera efectiva y fluida y mantener la memoria de los dispositivos individuales relativamente baja (por ejemplo, <32GB de memoria por dispositivo). Creo que necesitamos llegar a 20 EFlops en una red; eso significa algo así como 10-20K dispositivos de consumo funcionando durante 4-6 semanas en un entrenamiento.
En general, el d-training está preparado para ser un espacio muy emocionante. Algunas de sus innovaciones ya están siendo consideradas para aplicaciones amplias de IA.
4,16K
Parte superior
Clasificación
Favoritos