Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dat er een *tweede* paper is verschenen met tonnen RL flywheel geheimen en *multimodale* o1-stijl redenering staat vandaag niet op mijn bingo kaart. De papers van Kimi (een andere startup) en DeepSeek kwamen opmerkelijk overeen in vergelijkbare bevindingen:
> Geen behoefte aan complexe boomzoekmethoden zoals MCTS. Lineariseer gewoon de gedachtegang en doe goede oude autoregressieve voorspelling;
> Geen behoefte aan waarde functies die een andere dure kopie van het model vereisen;
> Geen behoefte aan dichte beloningsmodellering. Vertrouw zoveel mogelijk op de grondwaarheid, eindresultaat.
Verschillen:
> DeepSeek hanteert de AlphaZero-aanpak - puur bootstrap via RL zonder menselijke input, d.w.z. "cold start". Kimi hanteert de AlphaGo-Master-aanpak: lichte SFT om op te warmen via prompt-geengineerde CoT-sporen.
> DeepSeek-gewichten zijn MIT-licentie (thought leadership!); Kimi heeft nog geen modelrelease.
> Kimi toont sterke multimodale prestaties (!) op benchmarks zoals MathVista, wat visueel begrip van geometrie, IQ-tests, enz. vereist.
> De Kimi-paper bevat VEEL meer details over het systeemontwerp: RL-infrastructuur, hybride cluster, code-sandbox, parallelisme-strategieën; en leerdetails: lange context, CoT-compressie, curriculum, samplingstrategie, testgevalgeneratie, enz.
Opbeurende lectuur op een feestdag!

Whitepaper link:
300,46K
Boven
Positie
Favorieten