🔥 Dokładnie. Templar zmienił moje myślenie o infrastrukturze AI. Nie spodziewałem się wiele po zdecentralizowanej AI, ale widząc, jak @tplr_ai trenuje model 72B na 1,1T tokenów na ~70 bezzezwolonych węzłach na Bittensor ( $TAO). To już samo w sobie jest niezwykłe, ale to, co naprawdę zmieniło moje zdanie, to sposób, w jaki to zrealizowali. - Na tym poziomie, trening jest ograniczony przez koordynację. Zwykle przesyłasz ~280GB danych na krok synchronizacji między węzłami, co sprawia, że zdecentralizowane szkolenie jest praktycznie martwe na przybyciu. - @tplr_ai skompresował to do ~2,2GB i znacznie zmniejszył częstotliwość synchronizacji, używając SparseLoCo. Kiedy na to patrzę, widzę, że usuwają kluczowe wąskie gardło, które zabiło każdą wcześniejszą próbę 🤯. Dlatego uważam, że nazywanie tego momentem DeepSeek nie jest przesadą. DeepSeek pokazał, że modele mogą być trenowane taniej. Templar pokazuje, że mogą być trenowane bez centralnej koordynacji w ogóle. -> To są dwie bardzo różne kierunki, a ten wydaje się strukturalnie trudniejszy do konkurowania. Inny sygnał, którego nie ignoruję: kiedy ludzie tacy jak Jack Clark z Anthropic publicznie przedstawiają to jako prawdziwą infrastrukturę: - Z mojego doświadczenia, tego rodzaju walidacja zazwyczaj przychodzi po tym, jak coś już działa, a nie przed. - To wciąż jest przed treningiem. Prawdziwa przewaga w AI pochodzi z post-treningu, RLHF, pętli dostosowawczych, zasadniczo tam, gdzie modele stają się naprawdę użyteczne. Templar zmierza tam następnie z Grail, a dla mnie to jest prawdziwy test. Jeśli mogą zdecentralizować tę warstwę również, to już nie mówimy o zdecentralizowanym obliczeniu, mówią o w pełni bezzezwolonym procesie produkcji AI. Co wyróżnia Templar w moich oczach, to czas i kierunek, który wybrali. 1/ Zajęli się koordynacją, gdy cała branża AI cicho osiąga limity skalowania. - To bardzo inny zakład, a zazwyczaj ci, którzy atakują ograniczenia, a nie trendy, są tymi, którzy mają znaczenie później. 2/ Innym katalizatorem, który widzę, jest projekt bezzezwolny. - Większość zdecentralizowanych systemów AI wciąż ogranicza uczestnictwo w jakiś sposób, co zabija efekty sieciowe na wczesnym etapie. - Templar od początku był całkowicie otwarty, co oznacza, że jeśli ten model zadziała, nie tylko skaluje się liniowo, ale kumuluje z większą liczbą współtwórców, większym eksperymentowaniem, większą liczbą przypadków brzegowych rozwiązywanych równolegle. Również fakt, że budują w kierunku post-treningu (warstwa RL) mówi mi, że rozumieją, gdzie leży prawdziwa wartość. Pre-trening przyciąga uwagę, ale post-trening to tam, gdzie modele stają się użyteczne, przyciągające i monetyzowalne. Jeśli to zrealizują, zaczynają posiadać część samej warstwy inteligencji. 3/ Moja prognoza na podstawie tego: W krótkim okresie, większość ludzi nadal będzie to niedoceniać, ponieważ luka jakości modeli w porównaniu do scentralizowanych laboratoriów będzie łatwym argumentem. Ale z czasem, myślę, że Templar stanie się: - warstwą zaplecza dla otwartego rozwoju AI. - siecią koordynacyjną dla rozproszonego obliczenia. - a ostatecznie rynkiem dla udoskonalania inteligencji. Nie dominując od razu, ale cicho wbudowany wszędzie. A jeśli to się sprawdzi, zysk pochodzi z stania się systemem, na którym każdy może budować, gdy nie chce polegać na @OpenAI w ogóle.
templar
templar20 mar, 04:01
W tym tygodniu w @theallinpod @chamath zapytał CEO @nvidia Jensena Huanga o zdecentralizowane szkolenie AI, nazywając nasze uruchomienie Covenant-72B "dość szalonym osiągnięciem technicznym." Jedna korekta: to 72 miliardy parametrów, a nie cztery. Szkolone bez zezwoleń przez ponad 70 współpracowników na zwykłym internecie. Największy model kiedykolwiek wstępnie wytrenowany na w pełni zdecentralizowanej infrastrukturze. Odpowiedź Jensena również warto usłyszeć.
@tplr_ai Chads dostarczają wiele cennych informacji o ekosystemie Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎18 godz. temu
🔥 Dokładnie. Templar zmienił moje myślenie o infrastrukturze AI. Nie spodziewałem się wiele po zdecentralizowanej AI, ale widząc, jak @tplr_ai trenuje model 72B na 1,1T tokenów na ~70 bezzezwolonych węzłach na Bittensor ( $TAO). To już samo w sobie jest niezwykłe, ale to, co naprawdę zmieniło moje zdanie, to sposób, w jaki to zrealizowali. - Na tym poziomie, trening jest ograniczony przez koordynację. Zwykle przesyłasz ~280GB danych na krok synchronizacji między węzłami, co sprawia, że zdecentralizowane szkolenie jest praktycznie martwe na przybyciu. - @tplr_ai skompresował to do ~2,2GB i znacznie zmniejszył częstotliwość synchronizacji, używając SparseLoCo. Kiedy na to patrzę, widzę, że usuwają kluczowe wąskie gardło, które zabiło każdą wcześniejszą próbę 🤯. Dlatego uważam, że nazywanie tego momentem DeepSeek nie jest przesadą. DeepSeek pokazał, że modele mogą być trenowane taniej. Templar pokazuje, że mogą być trenowane bez centralnej koordynacji w ogóle. -> To są dwie bardzo różne kierunki, a ten wydaje się strukturalnie trudniejszy do konkurowania. Inny sygnał, którego nie ignoruję: kiedy ludzie tacy jak Jack Clark z Anthropic publicznie przedstawiają to jako prawdziwą infrastrukturę: - Z mojego doświadczenia, tego rodzaju walidacja zazwyczaj przychodzi po tym, jak coś już działa, a nie przed. - To wciąż jest przed treningiem. Prawdziwa przewaga w AI pochodzi z post-treningu, RLHF, pętli dostosowawczych, zasadniczo tam, gdzie modele stają się naprawdę użyteczne. Templar zmierza tam następnie z Grail, a dla mnie to jest prawdziwy test. Jeśli mogą zdecentralizować tę warstwę również, to już nie mówimy o zdecentralizowanym obliczeniu, mówią o w pełni bezzezwolonym procesie produkcji AI. Co wyróżnia Templar w moich oczach, to czas i kierunek, który wybrali. 1/ Zajęli się koordynacją, gdy cała branża AI cicho osiąga limity skalowania. - To bardzo inny zakład, a zazwyczaj ci, którzy atakują ograniczenia, a nie trendy, są tymi, którzy mają znaczenie później. 2/ Innym katalizatorem, który widzę, jest projekt bezzezwolny. - Większość zdecentralizowanych systemów AI wciąż ogranicza uczestnictwo w jakiś sposób, co zabija efekty sieciowe na wczesnym etapie. - Templar od początku był całkowicie otwarty, co oznacza, że jeśli ten model zadziała, nie tylko skaluje się liniowo, ale kumuluje z większą liczbą współtwórców, większym eksperymentowaniem, większą liczbą przypadków brzegowych rozwiązywanych równolegle. Również fakt, że budują w kierunku post-treningu (warstwa RL) mówi mi, że rozumieją, gdzie leży prawdziwa wartość. Pre-trening przyciąga uwagę, ale post-trening to tam, gdzie modele stają się użyteczne, przyciągające i monetyzowalne. Jeśli to zrealizują, zaczynają posiadać część samej warstwy inteligencji. 3/ Moja prognoza na podstawie tego: W krótkim okresie, większość ludzi nadal będzie to niedoceniać, ponieważ luka jakości modeli w porównaniu do scentralizowanych laboratoriów będzie łatwym argumentem. Ale z czasem, myślę, że Templar stanie się: - warstwą zaplecza dla otwartego rozwoju AI. - siecią koordynacyjną dla rozproszonego obliczenia. - a ostatecznie rynkiem dla udoskonalania inteligencji. Nie dominując od razu, ale cicho wbudowany wszędzie. A jeśli to się sprawdzi, zysk pochodzi z stania się systemem, na którym każdy może budować, gdy nie chce polegać na @OpenAI w ogóle.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,35K