Că o a doua lucrare a căzut cu tone de secrete RL și raționament *multimodal* în stil o1 nu este pe cardul meu de bingo astăzi. Lucrările lui Kimi (un alt startup) și ale DeepSeek au convergat în mod remarcabil spre constatări similare: > Nu este nevoie de căutări complexe în arbore precum MCTS. Doar liniarizați urmele de gândire și faceți o predicție autoregresivă veche; > Nu este nevoie de funcții de valoare care necesită o altă copie costisitoare a modelului; > Nu este nevoie de modelarea recompensei dense. Bazați-vă cât mai mult posibil pe adevărul de bază, rezultatul final. Diferenţele: > DeepSeek face abordarea AlphaZero - pur și simplu bootstrap prin RL fără intervenție umană, adică "pornire la rece". Kimi are abordarea AlphaGo-Master: SFT ușor pentru a se încălzi prin urme CoT proiectate prompt. > greutăți DeepSeek sunt licența MIT (leadership de gândire!); Kimi nu are încă o autorizație de model. > Kimi arată performanțe multimodale puternice (!) pe benchmark-uri precum MathVista, care necesită înțelegere vizuală a geometriei, teste IQ etc. > lucrare Kimi are MULT mai multe detalii despre designul sistemului: infrastructură RL, cluster hibrid, sandbox de cod, strategii de paralelism; și detalii de învățare: context lung, compresie CoT, curriculum, strategie de eșantionare, generare de cazuri de testare etc. Lecturi optimiste într-o vacanță!
Link pentru cartea albă:
300,46K