Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Статья "Иерархические модели рассуждений" в последнее время активно обсуждается, собирая десятки тысяч лайков в Twitter на десятках полувирусных тем, что довольно необычно для научной работы.
В статье утверждается, что точность составляет 40,3% на ARC-AGI-1 с маленькой моделью (27M параметров), обученной с нуля без каких-либо внешних данных для обучения — если это правда, это будет представлять собой значительный прорыв в области рассуждений.
Я только что подробно изучил статью и кодовую базу...
Это хорошее чтение, детализированное, но легкое для понимания. Я думаю, что представленные идеи довольно интересны, и архитектура, вероятно, ценна.
Концепция напоминает мне множество различных идей, с которыми я столкнулся в "золотую эпоху" исследований архитектуры глубокого обучения, примерно с 2016 по 2018 год. Этот тип исследований не был популярен в течение некоторого времени, поэтому приятно видеть возобновленный интерес к альтернативным архитектурам.
Тем не менее, экспериментальная установка, похоже, критически ошибочна, что означает, что у нас в настоящее время нет эмпирического сигнала (по крайней мере, от ARC-AGI) о том, действительно ли архитектура полезна или нет.
Эксперимент ARC-AGI-1 делает следующее, основываясь на моем анализе кода подготовки данных:
1. Обучение на 876,404 задачах, которые являются вариантами 960 оригинальных задач, сгенерированных с помощью аугментации:
... 400 из ARC-AGI-1/train
... 400 из ARC-AGI-1/eval
... 160 из ConceptARC
2. Тестирование на 400 задачах (ARC-AGI-1/eval), путем аугментации каждой задачи в ~1000 вариантов (на самом деле всего 368,151 из-за особенностей процесса аугментации), производя предсказание для каждого варианта и сокращая предсказания до N=2 с помощью голосования большинства.
Короче говоря: они обучаются на тестовых данных.
Вы можете спросить, подождите, почему тогда точность 40%, а не 100%? Модель сильно недообучена?
Это потому, что обучающие данные и тестовые данные представляют собой одни и те же оригинальные задачи *в разных вариациях*. Аугментация данных применяется независимо к задачам eval в обучающих данных и задачам eval в тестовых данных.
Таким образом, то, что измеряет эксперимент, в общем, это то, как модель справляется с обобщением на процедурно сгенерированные варианты одних и тех же задач (т.е. может ли модель научиться обратным преобразованиям фиксированного набора статических сеточных трансформаций).
Так что — не стоит слишком радоваться пока. Но я действительно думаю, что такие исследования архитектуры ценны (когда они сопровождаются надлежащим эмпирическим сигналом валидации) и что идея HRM очень интересна.
Также, чтобы было ясно, я не думаю, что авторы имели намерение ввести в заблуждение и скрыть экспериментальную проблему — они, вероятно, не осознавали, что на самом деле означает их установка для обучения.
19,85K
Топ
Рейтинг
Избранное