To, że *drugi* dokument został opublikowany z mnóstwem sekretów dotyczących koła zamachowego RL i *multimodalnego* rozumowania w stylu o1, nie było na mojej liście rzeczy do zrobienia dzisiaj. Prace Kimi (inny startup) i DeepSeek zaskakująco zbieżnie wykazały podobne wyniki: > Nie ma potrzeby skomplikowanego przeszukiwania drzew, jak MCTS. Po prostu zlinearizuj ślad myśli i wykonaj dobrą, starą autoregresywną prognozę; > Nie ma potrzeby funkcji wartości, które wymagają kolejnej kosztownej kopii modelu; > Nie ma potrzeby gęstego modelowania nagród. Polegaj jak najwięcej na prawdziwych danych, końcowym wyniku. Różnice: > DeepSeek stosuje podejście AlphaZero - czysto bootstrap przez RL bez ludzkiego wkładu, tzn. "zimny start". Kimi stosuje podejście AlphaGo-Master: lekkie SFT, aby rozgrzać przez zaprojektowane podpowiedzi ślady CoT. > Wagi DeepSeek są na licencji MIT (przywództwo myślowe!); Kimi jeszcze nie ma wydania modelu. > Kimi pokazuje silne multimodalne wyniki (!) w benchmarkach takich jak MathVista, które wymagają wizualnego zrozumienia geometrii, testów IQ itp. > Dokument Kimi zawiera znacznie więcej szczegółów dotyczących projektowania systemu: infrastruktura RL, hybrydowy klaster, piaskownica kodu, strategie równoległości; oraz szczegóły uczenia: długi kontekst, kompresja CoT, program nauczania, strategia próbkowania, generowanie przypadków testowych itp. Optymistyczne lektury na wakacje!
Link do białej księgi:
300,45K