Het paper "Hierarchical Reasoning Models" heeft de laatste tijd de ronde gedaan en heeft tienduizenden likes verzameld op Twitter in tientallen semi-virale threads, wat vrij ongebruikelijk is voor een onderzoeksartikel. Het paper claimt 40,3% nauwkeurigheid op ARC-AGI-1 met een klein model (27M parameters) dat vanaf nul is getraind zonder externe trainingsdata -- als dit waar is, zou dit een grote doorbraak in redeneren betekenen. Ik heb net een diepgaande analyse van het paper en de codebase gedaan... Het is een goed leesbaar stuk, gedetailleerd maar gemakkelijk te volgen. Ik denk dat de gepresenteerde ideeën behoorlijk interessant zijn en dat de architectuur waarschijnlijk waardevol is. Het concept doet me denken aan veel verschillende ideeën die ik tegenkwam tijdens de "gouden eeuw" van DL-architectuuronderzoek, rond 2016-2018. Dit type onderzoek is een tijdje niet populair geweest, dus het is fijn om hernieuwde interesse in alternatieve architecturen te zien. Echter, de experimentele opzet lijkt kritisch gebrekkig te zijn, wat betekent dat we momenteel geen empirisch signaal hebben (tenzij van ARC-AGI) over de vraag of de architectuur daadwerkelijk nuttig is of niet. Het ARC-AGI-1 experiment doet het volgende, gebaseerd op mijn lezing van de data voorbereidingscode: 1. Trainen op 876.404 taken, die augmentatie-gegeneerde varianten zijn van 960 originele taken: ... 400 van ARC-AGI-1/train ... 400 van ARC-AGI-1/eval ... 160 van ConceptARC 2. Testen op 400 taken (ARC-AGI-1/eval), door elke taak te augmenteren tot ~1000 varianten (in werkelijkheid zijn het slechts 368.151 in totaal vanwege eigenaardigheden van het augmentatieproces), waarbij een voorspelling voor elke variant wordt geproduceerd en voorspellingen worden gereduceerd tot N=2 via meerderheidstemmen. Kortom: ze trainen op de testdata. Je zou kunnen vragen, wacht, waarom is de nauwkeurigheid dan 40% en niet 100%? Is het model ernstig onderfit? Dat komt omdat de trainingsdata en de testdata dezelfde originele taken *in verschillende variaties* vertegenwoordigen. Data-augmentatie wordt onafhankelijk toegepast op de eval-taken in de trainingsdata en de eval-taken in de testdata. Dus wat het experiment ruwweg meet, is hoe het model erin slaagt te generaliseren naar procedureel gegenereerde varianten van dezelfde taken (d.w.z. of het model kan leren om een vaste set statische rastertransformaties om te keren). Dus -- raak nog niet te opgewonden. Maar ik denk wel dat dit soort architectuuronderzoek waardevol is (wanneer het gepaard gaat met een goed empirisch validatiesignaal) en dat het HRM-idee erg interessant is. Ook, om duidelijk te zijn, ik denk niet dat de auteurs de intentie hadden om te misleiden en het experimentele probleem te verbergen -- ze realiseerden zich waarschijnlijk niet wat hun trainingsopzet daadwerkelijk betekende.
19,85K