Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
To, že vypadl *druhý* papír s tunami tajemství setrvačníku RL a *multimodálním* uvažováním ve stylu o1, není dnes na mé bingo kartě. Kimiho (další startup) a DeepSeekovy články se pozoruhodně shodují s podobnými zjištěními:
> Není potřeba složité vyhledávání ve stromech jako MCTS. Prostě linearizujte myšlenkovou stopu a udělejte starou dobrou autoregresivní predikci;
> Není potřeba hodnotových funkcí, které vyžadují další drahou kopii modelu;
> Není potřeba husté modelování odměn. Spoléhat se co nejvíce na základní pravdu, konečný výsledek.
Rozdíly:
> DeepSeek dělá AlphaZero přístup - čistě bootstrap přes RL bez lidského vstupu, tj. "studený start". Kimi používá přístup AlphaGo-Master: světelný SFT pro zahřátí pomocí promptně vytvořených stop CoT.
> váhy DeepSeek jsou licencí MIT (myšlenkové vedení!); Kimi zatím nemá smlouvu s modelem.
> Kimi vykazuje silný multimodální výkon (!) v benchmarcích, jako je MathVista, což vyžaduje vizuální porozumění geometrii, IQ testům atd.
> Kimiho článek obsahuje MNOHEM více podrobností o návrhu systému: RL infrastruktura, hybridní cluster, sandbox kódu, strategie paralelismu; a podrobnosti o učení: dlouhý kontext, komprese CoT, učební osnovy, strategie vzorkování, generování testovacích případů atd.
Optimistické čtení na dovolené!

Odkaz na bílou knihu:
300,45K
Top
Hodnocení
Oblíbené