L’article « Hierarchical Reasoning Models » a fait le tour ces derniers temps, recueillant des dizaines de milliers de likes sur Twitter à travers des dizaines de fils semi-viraux, ce qui est assez inhabituel pour un document de recherche. L’article revendique une précision de 40,3 % sur ARC-AGI-1 avec un modèle minuscule (27M de paramètres) entraîné à partir de zéro sans aucune donnée d’entraînement externe - si cela était réel, cela représenterait une percée majeure en matière de raisonnement. Je viens de faire une plongée profonde sur le papier et la base de code... C’est une bonne lecture, détaillée mais facile à suivre. Je pense que les idées présentées sont assez intéressantes et que l’architecture est probablement précieuse. Le concept me rappelle de nombreuses idées différentes que j’ai rencontrées pendant « l’âge d’or » de la recherche en architecture DL, vers 2016-2018. Ce type de recherche n’a pas été populaire depuis un certain temps, il est donc agréable de voir un regain d’intérêt pour les architectures alternatives. Cependant, le dispositif expérimental semble être gravement défectueux, ce qui signifie que nous n’avons actuellement aucun signal empirique (du moins de la part d’ARC-AGI) indiquant si l’architecture est réellement utile ou non. L’expérience ARC-AGI-1 fait ce qui suit, d’après ma lecture du code de préparation des données : 1. Entraînez-vous sur 876 404 tâches, qui sont des variantes générées par l’augmentation de 960 tâches originales : ... 400 à partir de ARC-AGI-1/train ... 400 à partir de ARC-AGI-1/eval ... 160 de ConceptARC 2. Testez sur 400 tâches (ARC-AGI-1/eval), en augmentant chaque tâche en ~1000 variantes (en réalité, il n’y en a que 368 151 au total en raison des particularités du processus d’augmentation), en produisant une prédiction pour chaque variante, et en réduisant les prédictions à N = 2 par vote majoritaire. En bref : ils s’entraînent sur les données de test. Vous pourriez vous demander, attendez, pourquoi la précision est-elle de 40 % alors, plutôt que de 100 %? Le modèle est-il gravement sous-adapté ? En effet, les données d’entraînement et les données de test représentent les mêmes tâches d’origine *dans des variantes différentes*. L’augmentation des données est appliquée indépendamment aux tâches d’évaluation dans les données d’entraînement et aux tâches d’évaluation dans les données de test. Donc, ce que l’expérience mesure, en gros, c’est comment le modèle parvient à généraliser à des variantes générées de manière procédurale des mêmes tâches (c’est-à-dire si le modèle peut apprendre à inverser un ensemble fixe de transformations de grille statiques). Alors, ne vous excitez pas trop pour l’instant. Mais je pense que ce type de recherche en architecture est précieux (lorsqu’il est accompagné d’un signal de validation empirique approprié) et que l’idée de la GRH est très intéressante. De plus, pour être clair, je ne pense pas que les auteurs avaient l’intention d’induire en erreur et de cacher le problème expérimental - ils n’ont probablement pas réalisé ce que leur configuration de formation signifiait réellement.
19,85K