Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To, że *drugi* dokument został opublikowany z mnóstwem sekretów dotyczących koła zamachowego RL i *multimodalnego* rozumowania w stylu o1, nie było na mojej liście rzeczy do zrobienia dzisiaj. Prace Kimi (inny startup) i DeepSeek zaskakująco zbieżnie wykazały podobne wyniki:
> Nie ma potrzeby skomplikowanego przeszukiwania drzew, jak MCTS. Po prostu zlinearizuj ślad myśli i wykonaj dobrą, starą autoregresywną prognozę;
> Nie ma potrzeby funkcji wartości, które wymagają kolejnej kosztownej kopii modelu;
> Nie ma potrzeby gęstego modelowania nagród. Polegaj jak najwięcej na prawdziwych danych, końcowym wyniku.
Różnice:
> DeepSeek stosuje podejście AlphaZero - czysto bootstrap przez RL bez ludzkiego wkładu, tzn. "zimny start". Kimi stosuje podejście AlphaGo-Master: lekkie SFT, aby rozgrzać przez zaprojektowane podpowiedzi ślady CoT.
> Wagi DeepSeek są na licencji MIT (przywództwo myślowe!); Kimi jeszcze nie ma wydania modelu.
> Kimi pokazuje silne multimodalne wyniki (!) w benchmarkach takich jak MathVista, które wymagają wizualnego zrozumienia geometrii, testów IQ itp.
> Dokument Kimi zawiera znacznie więcej szczegółów dotyczących projektowania systemu: infrastruktura RL, hybrydowy klaster, piaskownica kodu, strategie równoległości; oraz szczegóły uczenia: długi kontekst, kompresja CoT, program nauczania, strategia próbkowania, generowanie przypadków testowych itp.
Optymistyczne lektury na wakacje!

Link do białej księgi:
300,45K
Najlepsze
Ranking
Ulubione