Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O artigo "Modelos de Raciocínio Hierárquico" tem circulado ultimamente, coletando dezenas de milhares de curtidas no Twitter em dezenas de tópicos semivirais, o que é bastante incomum para um trabalho de pesquisa.
O artigo afirma 40,3% de precisão no ARC-AGI-1 com um modelo minúsculo (27M parâmetros) treinado do zero sem nenhum dado de treinamento externo - se real, isso representaria um grande avanço no raciocínio.
Acabei de mergulhar fundo no papel e na base de código ...
É uma boa leitura, detalhada, mas fácil de seguir. Acho que as ideias apresentadas são bastante interessantes e a arquitetura provavelmente é valiosa.
O conceito me lembra de muitas ideias diferentes que encontrei durante a "era de ouro" da pesquisa de arquitetura DL, por volta de 2016-2018. Esse tipo de pesquisa não é popular há algum tempo, então é bom ver um interesse renovado em arquiteturas alternativas.
No entanto, a configuração experimental parece ser criticamente falha, o que significa que atualmente não temos nenhum sinal empírico (pelo menos do ARC-AGI) sobre se a arquitetura é realmente útil ou não.
O experimento ARC-AGI-1 está fazendo o seguinte, com base na minha leitura do código de preparação de dados:
1. Treine em 876.404 tarefas, que são variantes geradas por aumento de 960 tarefas originais:
... 400 de ARC-AGI-1/trem
... 400 de ARC-AGI-1/eval
... 160 da ConceptARC
2. Teste em 400 tarefas (ARC-AGI-1/eval), aumentando cada tarefa em ~1000 variantes (na realidade, são apenas 368.151 no total devido a idiossincrasias do processo de aumento), produzindo uma previsão para cada variante e reduzindo as previsões para N=2 por meio de votação majoritária.
Resumindo: eles estão treinando com os dados do teste.
Você pode perguntar, espere, por que a precisão é de 40% então, em vez de 100%? O modelo está severamente desajustado?
Isso ocorre porque os dados de treinamento e os dados de teste representam as mesmas tarefas originais *em diferentes variações*. O aumento de dados é aplicado independentemente às tarefas de avaliação nos dados de treinamento e às tarefas de avaliação nos dados de teste.
Portanto, o que o experimento está medindo, grosso modo, é como o modelo consegue generalizar para variantes geradas processualmente das mesmas tarefas (ou seja, se o modelo pode aprender a reverter um conjunto fixo de transformações de grade estática).
Então - não fique muito animado ainda. Mas acho que esse tipo de pesquisa de arquitetura é valioso (quando acompanhado por um sinal de validação empírica adequado) e que a ideia de GRH é muito interessante.
Além disso, para ser claro, não acho que os autores tivessem qualquer intenção de enganar e esconder o problema experimental - eles provavelmente não perceberam o que sua configuração de treinamento realmente significava.
19,85K
Melhores
Classificação
Favoritos