Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Artikeln "Hierarchical Reasoning Models" har cirkulerat på sistone och samlat tiotusentals gilla-markeringar på Twitter i dussintals halvvirala trådar, vilket är ganska ovanligt för en forskningsartikel.
Artikeln hävdar 40,3 % noggrannhet på ARC-AGI-1 med en liten modell (27 miljoner parametrar) tränad från grunden utan några externa träningsdata – om det är sant skulle detta innebära ett stort genombrott för resonemanget.
Jag gjorde bara en djupdykning på papperet och kodbasen ...
Den är bra att läsa, detaljerad men ändå lätt att följa. Jag tycker att idéerna som presenteras är ganska intressanta och arkitekturen är sannolikt värdefull.
Konceptet påminner mig om många olika idéer som jag stötte på under DL-arkitekturforskningens "guldålder", cirka 2016-2018. Den här typen av forskning har inte varit populär på ett tag, så det är trevligt att se ett förnyat intresse för alternativa arkitekturer.
Den experimentella uppställningen verkar dock vara kritiskt bristfällig, vilket innebär att vi för närvarande inte har någon empirisk signal (åtminstone från ARC-AGI) om huruvida arkitekturen faktiskt är hjälpsam eller inte.
ARC-AGI-1-experimentet gör följande, baserat på min läsning av koden för förberedelse av data:
1. Träna på 876 404 uppgifter, som är förstärkningsgenererade varianter av 960 ursprungliga uppgifter:
... 400 från ARC-AGI-1/tåg
... 400 från ARC-AGI-1/eval
... 160 från ConceptARC
2. Testa på 400 uppgifter (ARC-AGI-1/eval), genom att utöka varje uppgift till ~1000 varianter (i verkligheten är det bara 368 151 totalt på grund av egenheter i förstärkningsprocessen), producera en förutsägelse för varje variant och minska förutsägelserna till N = 2 via majoritetsröstning.
Kort sagt: de tränar på testdata.
Du kanske undrar, vänta, varför är noggrannheten 40 % då, snarare än 100 %? Är modellen kraftigt underanpassad?
Det beror på att träningsdata och testdata representerar samma ursprungliga uppgifter *i olika varianter*. Dataförstärkning tillämpas oberoende på eval-uppgifterna i träningsdatan och eval-uppgifterna i testdata.
Så vad experimentet mäter, i grova drag, är hur modellen lyckas generalisera till procedurellt genererade varianter av samma uppgifter (dvs. om modellen kan lära sig att vända en fast uppsättning statiska rutnätstransformationer).
Så - bli inte för upphetsad ännu. Men jag tror att den här typen av arkitekturforskning är värdefull (när den åtföljs av en ordentlig empirisk valideringssignal) och att HRM-idén är mycket intressant.
Dessutom, för att vara tydlig, jag tror inte att författarna hade något uppsåt att vilseleda och dölja den experimentella frågan -- de insåg förmodligen inte vad deras träningsupplägg faktiskt betydde.
19,88K
Topp
Rankning
Favoriter