O artigo "Modelos de Raciocínio Hierárquico" tem circulado ultimamente, coletando dezenas de milhares de curtidas no Twitter em dezenas de tópicos semivirais, o que é bastante incomum para um trabalho de pesquisa. O artigo afirma 40,3% de precisão no ARC-AGI-1 com um modelo minúsculo (27M parâmetros) treinado do zero sem nenhum dado de treinamento externo - se real, isso representaria um grande avanço no raciocínio. Acabei de mergulhar fundo no papel e na base de código ... É uma boa leitura, detalhada, mas fácil de seguir. Acho que as ideias apresentadas são bastante interessantes e a arquitetura provavelmente é valiosa. O conceito me lembra de muitas ideias diferentes que encontrei durante a "era de ouro" da pesquisa de arquitetura DL, por volta de 2016-2018. Esse tipo de pesquisa não é popular há algum tempo, então é bom ver um interesse renovado em arquiteturas alternativas. No entanto, a configuração experimental parece ser criticamente falha, o que significa que atualmente não temos nenhum sinal empírico (pelo menos do ARC-AGI) sobre se a arquitetura é realmente útil ou não. O experimento ARC-AGI-1 está fazendo o seguinte, com base na minha leitura do código de preparação de dados: 1. Treine em 876.404 tarefas, que são variantes geradas por aumento de 960 tarefas originais: ... 400 de ARC-AGI-1/trem ... 400 de ARC-AGI-1/eval ... 160 da ConceptARC 2. Teste em 400 tarefas (ARC-AGI-1/eval), aumentando cada tarefa em ~1000 variantes (na realidade, são apenas 368.151 no total devido a idiossincrasias do processo de aumento), produzindo uma previsão para cada variante e reduzindo as previsões para N=2 por meio de votação majoritária. Resumindo: eles estão treinando com os dados do teste. Você pode perguntar, espere, por que a precisão é de 40% então, em vez de 100%? O modelo está severamente desajustado? Isso ocorre porque os dados de treinamento e os dados de teste representam as mesmas tarefas originais *em diferentes variações*. O aumento de dados é aplicado independentemente às tarefas de avaliação nos dados de treinamento e às tarefas de avaliação nos dados de teste. Portanto, o que o experimento está medindo, grosso modo, é como o modelo consegue generalizar para variantes geradas processualmente das mesmas tarefas (ou seja, se o modelo pode aprender a reverter um conjunto fixo de transformações de grade estática). Então - não fique muito animado ainda. Mas acho que esse tipo de pesquisa de arquitetura é valioso (quando acompanhado por um sinal de validação empírica adequado) e que a ideia de GRH é muito interessante. Além disso, para ser claro, não acho que os autores tivessem qualquer intenção de enganar e esconder o problema experimental - eles provavelmente não perceberam o que sua configuração de treinamento realmente significava.
19,85K