Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Qu'un *deuxième* document soit publié avec des tonnes de secrets sur le flywheel RL et un raisonnement *multimodal* de style o1 n'est pas sur ma carte de bingo aujourd'hui. Les documents de Kimi (une autre startup) et de DeepSeek ont remarquablement convergé sur des résultats similaires :
> Pas besoin de recherche d'arbre complexe comme MCTS. Il suffit de linéariser la trace de pensée et de faire de bonnes vieilles prédictions autorégressives ;
> Pas besoin de fonctions de valeur qui nécessitent une autre copie coûteuse du modèle ;
> Pas besoin de modélisation de récompense dense. Comptez autant que possible sur la vérité terrain, le résultat final.
Différences :
> DeepSeek adopte l'approche AlphaZero - purement bootstrap via RL sans input humain, c'est-à-dire "démarrage à froid". Kimi adopte l'approche AlphaGo-Master : léger SFT pour se réchauffer à travers des traces CoT conçues par des prompts.
> Les poids de DeepSeek sont sous licence MIT (leadership de pensée !) ; Kimi n'a pas encore de publication de modèle.
> Kimi montre de fortes performances multimodales (!) sur des benchmarks comme MathVista, qui nécessite une compréhension visuelle de la géométrie, des tests de QI, etc.
> Le document de Kimi contient BEAUCOUP plus de détails sur la conception du système : infrastructure RL, cluster hybride, bac à sable de code, stratégies de parallélisme ; et détails d'apprentissage : long contexte, compression CoT, curriculum, stratégie d'échantillonnage, génération de cas de test, etc.
Des lectures optimistes pour un jour férié !

Lien du livre blanc :
300,45K
Meilleurs
Classement
Favoris