To, že vypadl *druhý* papír s tunami tajemství setrvačníku RL a *multimodálním* uvažováním ve stylu o1, není dnes na mé bingo kartě. Kimiho (další startup) a DeepSeekovy články se pozoruhodně shodují s podobnými zjištěními: > Není potřeba složité vyhledávání ve stromech jako MCTS. Prostě linearizujte myšlenkovou stopu a udělejte starou dobrou autoregresivní predikci; > Není potřeba hodnotových funkcí, které vyžadují další drahou kopii modelu; > Není potřeba husté modelování odměn. Spoléhat se co nejvíce na základní pravdu, konečný výsledek. Rozdíly: > DeepSeek dělá AlphaZero přístup - čistě bootstrap přes RL bez lidského vstupu, tj. "studený start". Kimi používá přístup AlphaGo-Master: světelný SFT pro zahřátí pomocí promptně vytvořených stop CoT. > váhy DeepSeek jsou licencí MIT (myšlenkové vedení!); Kimi zatím nemá smlouvu s modelem. > Kimi vykazuje silný multimodální výkon (!) v benchmarcích, jako je MathVista, což vyžaduje vizuální porozumění geometrii, IQ testům atd. > Kimiho článek obsahuje MNOHEM více podrobností o návrhu systému: RL infrastruktura, hybridní cluster, sandbox kódu, strategie paralelismu; a podrobnosti o učení: dlouhý kontext, komprese CoT, učební osnovy, strategie vzorkování, generování testovacích případů atd. Optimistické čtení na dovolené!
Odkaz na bílou knihu:
300,45K