Artykuł "Modele Rozumowania Hierarchicznego" zyskuje ostatnio na popularności, zbierając dziesiątki tysięcy polubień na Twitterze w ramach dziesiątek pół-wiralnych wątków, co jest dość niezwykłe jak na pracę badawczą. Artykuł twierdzi, że osiąga 40,3% dokładności na ARC-AGI-1 przy użyciu małego modelu (27M parametrów) wytrenowanego od podstaw bez żadnych zewnętrznych danych treningowych -- jeśli to prawda, byłoby to znaczące osiągnięcie w zakresie rozumowania. Właśnie przeprowadziłem dokładną analizę artykułu i bazy kodu... To dobra lektura, szczegółowa, ale łatwa do zrozumienia. Uważam, że przedstawione pomysły są dość interesujące, a architektura prawdopodobnie wartościowa. Koncepcja przypomina mi wiele różnych pomysłów, które napotkałem podczas "złotego wieku" badań nad architekturą DL, około 2016-2018. Ten typ badań nie był popularny przez jakiś czas, więc miło widzieć odnowione zainteresowanie alternatywnymi architekturami. Jednakże, układ eksperymentalny wydaje się być krytycznie wadliwy, co oznacza, że obecnie nie mamy empirycznego sygnału (przynajmniej z ARC-AGI), czy architektura jest rzeczywiście pomocna, czy nie. Eksperyment ARC-AGI-1 robi następujące rzeczy, na podstawie mojej analizy kodu przygotowania danych: 1. Trenuje na 876,404 zadaniach, które są wariantami oryginalnych 960 zadań generowanymi przez augmentację: ... 400 z ARC-AGI-1/train ... 400 z ARC-AGI-1/eval ... 160 z ConceptARC 2. Testuje na 400 zadaniach (ARC-AGI-1/eval), augmentując każde zadanie do ~1000 wariantów (w rzeczywistości jest to tylko 368,151 w sumie z powodu idiosynkrazji procesu augmentacji), produkując prognozę dla każdego wariantu i redukując prognozy do N=2 za pomocą głosowania większościowego. Krótko mówiąc: trenują na danych testowych. Możesz zapytać, czekaj, dlaczego dokładność wynosi 40%, a nie 100%? Czy model jest poważnie niedopasowany? To dlatego, że dane treningowe i dane testowe reprezentują te same oryginalne zadania *w różnych wariantach*. Augmentacja danych jest stosowana niezależnie do zadań ewaluacyjnych w danych treningowych i zadań ewaluacyjnych w danych testowych. Więc to, co eksperyment mierzy, w przybliżeniu, to jak model radzi sobie z generalizowaniem do proceduralnie generowanych wariantów tych samych zadań (tj. czy model potrafi nauczyć się odwracać ustaloną grupę statycznych transformacji siatki). Więc -- nie ekscytuj się jeszcze zbytnio. Ale uważam, że tego rodzaju badania architektoniczne są wartościowe (gdy są wspierane odpowiednim sygnałem walidacji empirycznej) i że pomysł HRM jest bardzo interesujący. Również, aby było jasne, nie sądzę, że autorzy mieli jakiekolwiek intencje wprowadzenia w błąd i ukrywania problemu eksperymentalnego -- prawdopodobnie nie zdawali sobie sprawy, co ich układ treningowy naprawdę oznacza.
19,85K