Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Das Paper "Hierarchical Reasoning Models" hat in letzter Zeit die Runde gemacht und Zehntausende von Likes auf Twitter in Dutzenden von semi-viralen Threads gesammelt, was für eine Forschungsarbeit ziemlich ungewöhnlich ist.
Die Studie behauptet eine Genauigkeit von 40,3 % auf ARC-AGI-1 mit einem winzigen Modell (27 Mio. Parameter), das von Grund auf ohne externe Trainingsdaten trainiert wurde - wenn dies echt wäre, würde dies einen großen Durchbruch bei der Argumentation darstellen.
Ich habe mich gerade eingehend mit dem Papier und der Codebasis befasst ...
Es ist gut zu lesen, detailliert und dennoch leicht zu verstehen. Ich denke, die vorgestellten Ideen sind sehr interessant und die Architektur ist wahrscheinlich wertvoll.
Das Konzept erinnert mich an viele verschiedene Ideen, die mir während des "goldenen Zeitalters" der DL-Architekturforschung, etwa 2016-2018, begegnet sind. Diese Art der Forschung ist seit einiger Zeit nicht mehr populär, daher ist es schön zu sehen, dass das Interesse an alternativen Architekturen wieder gestiegen ist.
Der Versuchsaufbau scheint jedoch kritisch fehlerhaft zu sein, was bedeutet, dass wir derzeit kein empirisches Signal (zumindest von ARC-AGI) haben, ob die Architektur tatsächlich hilfreich ist oder nicht.
Das ARC-AGI-1-Experiment führt folgendes aus, basierend auf meiner Lektüre des Datenaufbereitungscodes:
1. Trainieren Sie mit 876.404 Aufgaben, bei denen es sich um augmentationsgenerierte Varianten von 960 ursprünglichen Aufgaben handelt:
... 400 von ARC-AGI-1/Zug
... 400 ab ARC-AGI-1/eval
... 160 von ConceptARC
2. Testen Sie an 400 Aufgaben (ARC-AGI-1/eval), indem Sie jede Aufgabe in ~1000 Varianten erweitern (in Wirklichkeit sind es aufgrund von Eigenheiten des Augmentationsprozesses insgesamt nur 368.151), erstellen Sie eine Vorhersage für jede Variante und reduzieren Sie die Vorhersagen durch Mehrheitsbeschluss auf N=2.
Kurz gesagt: Sie trainieren mit den Testdaten.
Sie fragen sich vielleicht, warum die Genauigkeit dann 40 % und nicht 100 % beträgt? Ist das Modell stark unterdimensioniert?
Das liegt daran, dass die Trainingsdaten und die Testdaten die gleichen ursprünglichen Aufgaben *in unterschiedlichen Variationen* darstellen. Die Datenerweiterung wird unabhängig voneinander auf die Evaluierungsaufgaben in den Trainingsdaten und die Evaluierungsaufgaben in den Testdaten angewendet.
Was das Experiment also grob misst, ist, wie das Modell es schafft, auf prozedural generierte Varianten derselben Aufgaben zu verallgemeinern (d.h. ob das Modell lernen kann, einen festen Satz statischer Gittertransformationen umzukehren).
Also – seien Sie noch nicht zu aufgeregt. Aber ich denke, dass diese Art der Architekturforschung wertvoll ist (wenn sie von einem angemessenen empirischen Validierungssignal begleitet wird) und dass die HRM-Idee sehr interessant ist.
Um es klar zu sagen: Ich glaube nicht, dass die Autoren die Absicht hatten, das experimentelle Problem in die Irre zu führen und zu verbergen – sie haben wahrscheinlich nicht erkannt, was ihr Trainingsaufbau tatsächlich bedeutet.
19,87K
Top
Ranking
Favoriten