Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Myśli/prognozy dotyczące zdecentralizowanego szkolenia AI, 2025.
1. Jedną rzeczą, którą można powiedzieć, jest to, że zdecydowanie znajdujemy się w innym świecie ze zdecentralizowanym szkoleniem AI niż 18 miesięcy temu. Wtedy zdecentralizowane szkolenie było niemożliwe, a teraz jest na rynku i stanowi dziedzinę.
2. Nie ma wątpliwości, że ostatecznym celem d-szkolenia jest trenowanie konkurencyjnych, nowatorskich modeli na d-sieciach. W związku z tym jesteśmy dopiero na początku naszej konkurencyjnej podróży, ale poruszamy się szybko.
3. Teraz panuje konsensus, że możemy wstępnie trenować i po-trenować modele o wielkości wielu miliardów parametrów (głównie LLM, głównie architektury transformatorowe) na d-sieciach. Obecny stan sztuki sięga ~100B, z górnym końcem, który jest w zasięgu, ale nie został jeszcze pokazany.
4. Teraz panuje konsensus, że możemy trenować modele <10B parametrów na d-sieciach dość wykonalnie. Były również konkretne studia przypadków (głównie od @gensynai @PrimeIntellect @NousResearch), w których trenowano lub są trenowane modele o 10B, 32B, 40B parametrach. Post-treningowy rój @gensynai działa na modelach o wielkości do 72B parametrów.
5. Innowacja @PluralisHQ unieważniła teraz "niemożliwość" skalowalnego wstępnego szkolenia na d-sieciach, eliminując wąskie gardło związane z nieefektywnością komunikacyjną. Jednak surowe FLOPy, niezawodność i weryfikowalność pozostają wąskimi gardłami dla tych typów sieci - problemy, które są bardzo rozwiązywalne, ale zajmie trochę czasu, aby je technicznie rozwiązać. Z Protocol Learning od Pluralis, jak to wygląda, myślę, że osiągniemy modele ~100B w ciągu 6-12 miesięcy.
6. Jak przejść od modeli 100B do 300B parametrów? Myślę, że musimy znaleźć sposoby na efektywne i płynne dzielenie parametrów oraz utrzymanie pamięci poszczególnych urządzeń na stosunkowo niskim poziomie (np. <32GB pamięci na urządzenie). Myślę, że musimy osiągnąć 20 EFlops w sieci; to oznacza coś w rodzaju 10-20K urządzeń konsumenckich działających przez 4-6 tygodni na treningu.
Ogólnie rzecz biorąc, d-szkolenie ma potencjał, aby stać się bardzo ekscytującą przestrzenią. Niektóre z jego innowacji są już rozważane do szerokich zastosowań AI.
4,18K
Najlepsze
Ranking
Ulubione