Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O artigo "Modelos de Raciocínio Hierárquico" tem circulado bastante ultimamente, acumulando dezenas de milhares de curtidas no Twitter em dezenas de tópicos semi-virais, o que é bastante incomum para um artigo de pesquisa.
O artigo afirma uma precisão de 40,3% no ARC-AGI-1 com um modelo pequeno (27M de parâmetros) treinado do zero sem nenhum dado de treinamento externo -- se for verdade, isso representaria um grande avanço no raciocínio.
Acabei de fazer uma análise profunda do artigo e do código...
É uma boa leitura, detalhada, mas fácil de seguir. Acho que as ideias apresentadas são bastante interessantes e a arquitetura provavelmente é valiosa.
O conceito me lembra muitas ideias diferentes que encontrei durante a "era de ouro" da pesquisa em arquitetura de DL, por volta de 2016-2018. Esse tipo de pesquisa não tem sido popular por um tempo, então é bom ver um interesse renovado em arquiteturas alternativas.
No entanto, a configuração experimental parece estar criticamente falha, o que significa que atualmente não temos nenhum sinal empírico (pelo menos do ARC-AGI) sobre se a arquitetura é realmente útil ou não.
O experimento ARC-AGI-1 está fazendo o seguinte, com base na minha leitura do código de preparação de dados:
1. Treinar em 876.404 tarefas, que são variantes geradas por aumento de 960 tarefas originais:
... 400 de ARC-AGI-1/train
... 400 de ARC-AGI-1/eval
... 160 de ConceptARC
2. Testar em 400 tarefas (ARC-AGI-1/eval), aumentando cada tarefa em ~1000 variantes (na realidade, são apenas 368.151 no total devido a idiossincrasias do processo de aumento), produzindo uma previsão para cada variante e reduzindo as previsões para N=2 via votação majoritária.
Em resumo: eles estão treinando com os dados de teste.
Você pode perguntar, espere, por que a precisão é 40% então, em vez de 100%? O modelo está severamente subajustado?
Isso porque os dados de treinamento e os dados de teste representam as mesmas tarefas originais *em diferentes variações*. O aumento de dados é aplicado de forma independente às tarefas de avaliação nos dados de treinamento e às tarefas de avaliação nos dados de teste.
Então, o que o experimento está medindo, grosso modo, é como o modelo consegue generalizar para variantes geradas proceduralmente das mesmas tarefas (ou seja, se o modelo pode aprender a reverter um conjunto fixo de transformações de grade estáticas).
Então -- não fique muito animado ainda. Mas eu realmente acho que esse tipo de pesquisa em arquitetura é valiosa (quando acompanhada por um sinal de validação empírica adequado) e que a ideia de HRM é muito interessante.
Além disso, para ser claro, não acho que os autores tiveram a intenção de enganar e esconder o problema experimental -- eles provavelmente não perceberam o que sua configuração de treinamento realmente significava.
19,87K
Top
Classificação
Favoritos