Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Că o a doua lucrare a căzut cu tone de secrete RL și raționament *multimodal* în stil o1 nu este pe cardul meu de bingo astăzi. Lucrările lui Kimi (un alt startup) și ale DeepSeek au convergat în mod remarcabil spre constatări similare:
> Nu este nevoie de căutări complexe în arbore precum MCTS. Doar liniarizați urmele de gândire și faceți o predicție autoregresivă veche;
> Nu este nevoie de funcții de valoare care necesită o altă copie costisitoare a modelului;
> Nu este nevoie de modelarea recompensei dense. Bazați-vă cât mai mult posibil pe adevărul de bază, rezultatul final.
Diferenţele:
> DeepSeek face abordarea AlphaZero - pur și simplu bootstrap prin RL fără intervenție umană, adică "pornire la rece". Kimi are abordarea AlphaGo-Master: SFT ușor pentru a se încălzi prin urme CoT proiectate prompt.
> greutăți DeepSeek sunt licența MIT (leadership de gândire!); Kimi nu are încă o autorizație de model.
> Kimi arată performanțe multimodale puternice (!) pe benchmark-uri precum MathVista, care necesită înțelegere vizuală a geometriei, teste IQ etc.
> lucrare Kimi are MULT mai multe detalii despre designul sistemului: infrastructură RL, cluster hibrid, sandbox de cod, strategii de paralelism; și detalii de învățare: context lung, compresie CoT, curriculum, strategie de eșantionare, generare de cazuri de testare etc.
Lecturi optimiste într-o vacanță!

Link pentru cartea albă:
300,46K
Limită superioară
Clasament
Favorite