Qu'un *deuxième* document soit publié avec des tonnes de secrets sur le flywheel RL et un raisonnement *multimodal* de style o1 n'est pas sur ma carte de bingo aujourd'hui. Les documents de Kimi (une autre startup) et de DeepSeek ont remarquablement convergé sur des résultats similaires : > Pas besoin de recherche d'arbre complexe comme MCTS. Il suffit de linéariser la trace de pensée et de faire de bonnes vieilles prédictions autorégressives ; > Pas besoin de fonctions de valeur qui nécessitent une autre copie coûteuse du modèle ; > Pas besoin de modélisation de récompense dense. Comptez autant que possible sur la vérité terrain, le résultat final. Différences : > DeepSeek adopte l'approche AlphaZero - purement bootstrap via RL sans input humain, c'est-à-dire "démarrage à froid". Kimi adopte l'approche AlphaGo-Master : léger SFT pour se réchauffer à travers des traces CoT conçues par des prompts. > Les poids de DeepSeek sont sous licence MIT (leadership de pensée !) ; Kimi n'a pas encore de publication de modèle. > Kimi montre de fortes performances multimodales (!) sur des benchmarks comme MathVista, qui nécessite une compréhension visuelle de la géométrie, des tests de QI, etc. > Le document de Kimi contient BEAUCOUP plus de détails sur la conception du système : infrastructure RL, cluster hybride, bac à sable de code, stratégies de parallélisme ; et détails d'apprentissage : long contexte, compression CoT, curriculum, stratégie d'échantillonnage, génération de cas de test, etc. Des lectures optimistes pour un jour férié !
Lien du livre blanc :
300,45K