O artigo "Modelos de Raciocínio Hierárquico" tem circulado bastante ultimamente, acumulando dezenas de milhares de curtidas no Twitter em dezenas de tópicos semi-virais, o que é bastante incomum para um artigo de pesquisa. O artigo afirma uma precisão de 40,3% no ARC-AGI-1 com um modelo pequeno (27M de parâmetros) treinado do zero sem nenhum dado de treinamento externo -- se for verdade, isso representaria um grande avanço no raciocínio. Acabei de fazer uma análise profunda do artigo e do código... É uma boa leitura, detalhada, mas fácil de seguir. Acho que as ideias apresentadas são bastante interessantes e a arquitetura provavelmente é valiosa. O conceito me lembra muitas ideias diferentes que encontrei durante a "era de ouro" da pesquisa em arquitetura de DL, por volta de 2016-2018. Esse tipo de pesquisa não tem sido popular por um tempo, então é bom ver um interesse renovado em arquiteturas alternativas. No entanto, a configuração experimental parece estar criticamente falha, o que significa que atualmente não temos nenhum sinal empírico (pelo menos do ARC-AGI) sobre se a arquitetura é realmente útil ou não. O experimento ARC-AGI-1 está fazendo o seguinte, com base na minha leitura do código de preparação de dados: 1. Treinar em 876.404 tarefas, que são variantes geradas por aumento de 960 tarefas originais: ... 400 de ARC-AGI-1/train ... 400 de ARC-AGI-1/eval ... 160 de ConceptARC 2. Testar em 400 tarefas (ARC-AGI-1/eval), aumentando cada tarefa em ~1000 variantes (na realidade, são apenas 368.151 no total devido a idiossincrasias do processo de aumento), produzindo uma previsão para cada variante e reduzindo as previsões para N=2 via votação majoritária. Em resumo: eles estão treinando com os dados de teste. Você pode perguntar, espere, por que a precisão é 40% então, em vez de 100%? O modelo está severamente subajustado? Isso porque os dados de treinamento e os dados de teste representam as mesmas tarefas originais *em diferentes variações*. O aumento de dados é aplicado de forma independente às tarefas de avaliação nos dados de treinamento e às tarefas de avaliação nos dados de teste. Então, o que o experimento está medindo, grosso modo, é como o modelo consegue generalizar para variantes geradas proceduralmente das mesmas tarefas (ou seja, se o modelo pode aprender a reverter um conjunto fixo de transformações de grade estáticas). Então -- não fique muito animado ainda. Mas eu realmente acho que esse tipo de pesquisa em arquitetura é valiosa (quando acompanhada por um sinal de validação empírica adequado) e que a ideia de HRM é muito interessante. Além disso, para ser claro, não acho que os autores tiveram a intenção de enganar e esconder o problema experimental -- eles provavelmente não perceberam o que sua configuração de treinamento realmente significava.
19,87K