Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lucrarea "Hierarchical Reasoning Models" a făcut înconjurul în ultima vreme, colectând zeci de mii de aprecieri pe Twitter în zeci de subiecte semi-virale, ceea ce este destul de neobișnuit pentru o lucrare de cercetare.
Lucrarea pretinde o precizie de 40,3% pe ARC-AGI-1 cu un model mic (27 de milioane de parametri) antrenat de la zero fără date externe de antrenament - dacă este real, aceasta ar reprezenta o descoperire majoră a raționamentului.
Tocmai am făcut o scufundare profundă în hârtie și baza de cod...
Este o lectură bună, detaliată, dar ușor de urmărit. Cred că ideile prezentate sunt destul de interesante și arhitectura este probabil valoroasă.
Conceptul îmi amintește de multe idei diferite pe care le-am întâlnit în timpul "epocii de aur" a cercetării arhitecturii DL, în jurul anilor 2016-2018. Acest tip de cercetare nu a fost popular de ceva vreme, așa că este plăcut să vedem un interes reînnoit pentru arhitecturile alternative.
Cu toate acestea, configurația experimentală pare a fi defectuoasă din punct de vedere critic, ceea ce înseamnă că în prezent nu avem niciun semnal empiric (cel puțin de la ARC-AGI) cu privire la faptul dacă arhitectura este de fapt utilă sau nu.
Experimentul ARC-AGI-1 face următoarele, pe baza citirii codului de pregătire a datelor:
1. Antrenează-te pe 876.404 sarcini, care sunt variante generate de augmentare a 960 de sarcini originale:
... 400 de la ARC-AGI-1/tren
... 400 de la ARC-AGI-1/eval
... 160 de la ConceptARC
2. Testați pe 400 de sarcini (ARC-AGI-1/eval), prin creșterea fiecărei sarcini în ~1000 de variante (în realitate sunt doar 368.151 în total din cauza idiosincraziilor procesului de augmentare), producând o predicție pentru fiecare variantă și reducând predicțiile la N=2 prin vot majoritar.
Pe scurt: se antrenează pe baza datelor de testare.
Ați putea întreba, stai, de ce acuratețea este de 40% atunci, în loc de 100%? Modelul este grav subdimensionat?
Acest lucru se datorează faptului că datele de antrenament și datele de testare reprezintă aceleași sarcini originale *în variante diferite*. Augmentarea datelor este aplicată independent sarcinilor de evaluare din datele de antrenament și sarcinilor de evaluare din datele de testare.
Deci, ceea ce măsoară experimentul, aproximativ, este modul în care modelul reușește să generalizeze la variante generate procedural ale acelorași sarcini (adică dacă modelul poate învăța să inverseze un set fix de transformări statice ale grilei).
Deci, nu vă entuziasmați prea mult încă. Dar cred că acest tip de cercetare arhitecturală este valoroasă (atunci când este însoțită de un semnal de validare empirică adecvat) și că ideea HRM este foarte interesantă.
De asemenea, pentru a fi clar, nu cred că autorii au avut vreo intenție de a induce în eroare și de a ascunde problema experimentală - probabil că nu și-au dat seama ce înseamnă de fapt configurația lor de antrenament.
19,87K
Limită superioară
Clasament
Favorite