Dat er een *tweede* paper is verschenen met tonnen RL flywheel geheimen en *multimodale* o1-stijl redenering staat vandaag niet op mijn bingo kaart. De papers van Kimi (een andere startup) en DeepSeek kwamen opmerkelijk overeen in vergelijkbare bevindingen: > Geen behoefte aan complexe boomzoekmethoden zoals MCTS. Lineariseer gewoon de gedachtegang en doe goede oude autoregressieve voorspelling; > Geen behoefte aan waarde functies die een andere dure kopie van het model vereisen; > Geen behoefte aan dichte beloningsmodellering. Vertrouw zoveel mogelijk op de grondwaarheid, eindresultaat. Verschillen: > DeepSeek hanteert de AlphaZero-aanpak - puur bootstrap via RL zonder menselijke input, d.w.z. "cold start". Kimi hanteert de AlphaGo-Master-aanpak: lichte SFT om op te warmen via prompt-geengineerde CoT-sporen. > DeepSeek-gewichten zijn MIT-licentie (thought leadership!); Kimi heeft nog geen modelrelease. > Kimi toont sterke multimodale prestaties (!) op benchmarks zoals MathVista, wat visueel begrip van geometrie, IQ-tests, enz. vereist. > De Kimi-paper bevat VEEL meer details over het systeemontwerp: RL-infrastructuur, hybride cluster, code-sandbox, parallelisme-strategieën; en leerdetails: lange context, CoT-compressie, curriculum, samplingstrategie, testgevalgeneratie, enz. Opbeurende lectuur op een feestdag!
Whitepaper link:
300,46K