Статья "Иерархические модели рассуждений" в последнее время активно обсуждается, собирая десятки тысяч лайков в Twitter на десятках полувирусных тем, что довольно необычно для научной работы. В статье утверждается, что точность составляет 40,3% на ARC-AGI-1 с маленькой моделью (27M параметров), обученной с нуля без каких-либо внешних данных для обучения — если это правда, это будет представлять собой значительный прорыв в области рассуждений. Я только что подробно изучил статью и кодовую базу... Это хорошее чтение, детализированное, но легкое для понимания. Я думаю, что представленные идеи довольно интересны, и архитектура, вероятно, ценна. Концепция напоминает мне множество различных идей, с которыми я столкнулся в "золотую эпоху" исследований архитектуры глубокого обучения, примерно с 2016 по 2018 год. Этот тип исследований не был популярен в течение некоторого времени, поэтому приятно видеть возобновленный интерес к альтернативным архитектурам. Тем не менее, экспериментальная установка, похоже, критически ошибочна, что означает, что у нас в настоящее время нет эмпирического сигнала (по крайней мере, от ARC-AGI) о том, действительно ли архитектура полезна или нет. Эксперимент ARC-AGI-1 делает следующее, основываясь на моем анализе кода подготовки данных: 1. Обучение на 876,404 задачах, которые являются вариантами 960 оригинальных задач, сгенерированных с помощью аугментации: ... 400 из ARC-AGI-1/train ... 400 из ARC-AGI-1/eval ... 160 из ConceptARC 2. Тестирование на 400 задачах (ARC-AGI-1/eval), путем аугментации каждой задачи в ~1000 вариантов (на самом деле всего 368,151 из-за особенностей процесса аугментации), производя предсказание для каждого варианта и сокращая предсказания до N=2 с помощью голосования большинства. Короче говоря: они обучаются на тестовых данных. Вы можете спросить, подождите, почему тогда точность 40%, а не 100%? Модель сильно недообучена? Это потому, что обучающие данные и тестовые данные представляют собой одни и те же оригинальные задачи *в разных вариациях*. Аугментация данных применяется независимо к задачам eval в обучающих данных и задачам eval в тестовых данных. Таким образом, то, что измеряет эксперимент, в общем, это то, как модель справляется с обобщением на процедурно сгенерированные варианты одних и тех же задач (т.е. может ли модель научиться обратным преобразованиям фиксированного набора статических сеточных трансформаций). Так что — не стоит слишком радоваться пока. Но я действительно думаю, что такие исследования архитектуры ценны (когда они сопровождаются надлежащим эмпирическим сигналом валидации) и что идея HRM очень интересна. Также, чтобы было ясно, я не думаю, что авторы имели намерение ввести в заблуждение и скрыть экспериментальную проблему — они, вероятно, не осознавали, что на самом деле означает их установка для обучения.
19,85K