Dass ein *zweites* Papier mit einer Menge an RL-Flywheel-Geheimnissen und *multimodaler* o1-artiger Argumentation veröffentlicht wurde, steht heute nicht auf meiner Bingo-Karte. Die Papiere von Kimi (einem anderen Startup) und DeepSeek haben bemerkenswerterweise ähnliche Ergebnisse erzielt: > Keine Notwendigkeit für komplexe Baumsuchen wie MCTS. Einfach die Gedankenverfolgung linearisieren und gute alte autoregressive Vorhersage machen; > Keine Notwendigkeit für Wertfunktionen, die eine weitere teure Kopie des Modells erfordern; > Keine Notwendigkeit für dichte Belohnungsmodellierung. So viel wie möglich auf Groundtruth, Endergebnis verlassen. Unterschiede: > DeepSeek verfolgt den AlphaZero-Ansatz - rein bootstrap durch RL ohne menschlichen Input, d.h. "kalter Start". Kimi verfolgt den AlphaGo-Master-Ansatz: leichtes SFT, um durch prompt-engineered CoT-Spuren aufzuwärmen. > DeepSeek-Gewichte sind MIT-Lizenz (Thought Leadership!); Kimi hat noch keine Modellveröffentlichung. > Kimi zeigt starke multimodale Leistung (!) bei Benchmarks wie MathVista, die visuelles Verständnis von Geometrie, IQ-Tests usw. erfordern. > Das Kimi-Papier enthält VIEL mehr Details zum Systemdesign: RL-Infrastruktur, hybrider Cluster, Code-Sandbox, Parallelitätsstrategien; und Lern-Details: langer Kontext, CoT-Kompression, Lehrplan, Sampling-Strategie, Testfall-Generierung usw. Optimistische Lektüre an einem Feiertag!
Whitepaper-Link:
300,45K