Raske spådommer. 2025: 100B+ parametermodell trent på d-nettverk. 2026: Første 50B+ *multimodal* modell trent på frivillige GPUer. 2027-8: Alt annet likt, GPT-3 175B tett konkurransemodell reprodusert. 2030+: En ekte "grense" desentralisert kjøring, 1T params+.
Jake Brukhman 🚀 deAI Summer 2025
Jake Brukhman 🚀 deAI Summer 202510. juni 2025
Tanker/spådommer i desentralisert AI-opplæring, 2025. 1. En ting å si er at vi definitivt er i en annen verden med desentralisert AI-opplæring enn vi var for 18 måneder siden. Den gang var desentralisert opplæring umulig, og nå er det i markedet og er et felt. 2. Gjør ingen feil, sluttmålet med d-trening er å trene konkurransedyktige, grensemodeller på d-nettverk. Som sådan er vi bare i starten av vår konkurransereise, men vi beveger oss raskt. 3. Det er nå konsensus om at vi kan forhåndstrene og ettertrene multi-milliarder parametermodeller (for det meste LLM-er, for det meste transformatorarkitekturer) på d-nettverk. Den nåværende teknologien er opptil ~100B, hvis øvre ende er i sikte, men ikke har blitt vist. 4. Det er nå konsensus om at vi kan trene <10B-parametermodeller på d-nettverk ganske mulig. Det har også vært spesifikke casestudier (primært fra @gensynai @PrimeIntellect @NousResearch) der 10B, 32B, 40B parametere har blitt eller blir trent. @gensynai sverm etter trening opererer på opptil 72B parametermodeller. 5. Den @PluralisHQ innovasjonen har nå ugyldiggjort "umuligheten" av skalerbar forhåndsopplæring på d-nettverk ved å fjerne flaskehalsen for kommunikasjonsineffektivitet. Imidlertid er rå FLOP-er, pålitelighet og verifiserbarhet fortsatt flaskehalser for denne typen nettverk - problemer som er svært løselige, men som vil ta litt tid å løse teknisk. Med Protocol Learning from Pluralis slik det står, tror jeg vi kommer til ~100B modeller på 6-12 måneders tidsramme. 6. Hvordan kommer vi fra 100B til 300B parametermodeller? Jeg tror vi må finne måter å effektivt og flytende fragmentere parametere og holde individuelt enhetsminne relativt lavt (f.eks. <32 GB minne per enhet). Jeg tror vi må komme til 20 EFlops i et nettverk; det betyr noe sånt som 10-20K forbrukerenheter som kjører i 4-6 uker på en trening. Totalt sett er d-trening klar til å bli et veldig spennende rom. Noen av innovasjonene vurderes allerede for brede AI-applikasjoner.
3,66K