Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sapient a publié son Modèle de Raisonnement Hiérarchique (HRM) et les résultats sont assez intéressants. Il s'agit d'un modèle de 27 millions de paramètres qui surpasse Claude 3.5 et o3-mini sur des benchmarks de raisonnement tels que ARC-AGI-2, des puzzles Sudoku complexes et la recherche de chemin dans de grands labyrinthes.
Ce qui rend cela notable :
L'aspect efficacité est frappant. Le HRM a été entraîné sur environ 1000 exemples sans préentraînement ni incitation de type Chain-of-Thought, et pourtant il gère des tâches de raisonnement complexes qui nécessitent généralement des modèles beaucoup plus grands. Cela le rend pratique pour un déploiement sur des appareils en périphérie et accessible pour des équipes sans budgets de calcul massifs.
L'architecture inspirée du cerveau est plus qu'une simple terminologie. Le HRM utilise un design à double système avec deux modules : l'un pour la planification abstraite de haut niveau et l'autre pour l'exécution détaillée rapide, fonctionnant à différentes échelles de temps. Cela reflète la façon dont la cognition humaine fonctionne avec à la fois un traitement intuitif rapide et un raisonnement délibéré plus lent.
L'exigence en ressources faibles change l'équation de l'accessibilité. Alors que la plupart des IA avancées nécessitent une infrastructure significative, le HRM peut fonctionner sur du matériel ordinaire, ouvrant des capacités de raisonnement sophistiquées aux startups et aux chercheurs qui ne peuvent pas se permettre de calcul à grande échelle.
Approche technique :
Au lieu de traiter les tokens de manière séquentielle comme les Transformers, le HRM utilise des boucles récurrentes hiérarchiques qui fonctionnent dans un espace continu plutôt que dans des tokens discrets. Le modèle résout les tâches directement sans avoir besoin de verbaliser son processus de pensée à travers des chaînes explicites étape par étape.
L'efficacité des paramètres provient de l'apprentissage de modèles de raisonnement qui se généralisent à partir d'exemples minimaux plutôt que de mémoriser d'énormes quantités de données d'entraînement. L'entraînement utilise une approximation de gradient à une seule étape pour maintenir l'utilisation de la mémoire constante, ce qui le rend pratique sur du matériel standard.
Le HRM adapte également son calcul - passant plus de cycles sur des problèmes plus difficiles et moins sur des plus simples, utilisant l'apprentissage par renforcement pour déterminer quand arrêter le raisonnement. Le processus de raisonnement est interprétable, surtout sur des tâches visuelles où l'on peut observer comment il résout les problèmes étape par étape.
Cela suggère que le raisonnement avancé pourrait être plus une question de conception architecturale que d'échelle, ce qui pourrait changer notre façon de penser à la construction de systèmes d'IA capables.

60,5K
Meilleurs
Classement
Favoris