Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Gosto de treinar redes neurais grandes e profundas. Anteriormente Diretor de IA @ Tesla, equipe fundadora @ OpenAI, PhD @ Stanford.
Embalei o projeto de "autopesquisa" em um novo repositório minimalista autônomo caso as pessoas queiram jogar durante o fim de semana. É basicamente um núcleo de treinamento de LLM nanochat reduzido a uma única GPU, um arquivo, com ~630 linhas de código, e então:
- o humano itera no prompt (.md)
- o agente de IA itera no código de treinamento (.py)
O objetivo é orientar seus agentes para que façam o progresso de pesquisa mais rápido indefinidamente e sem envolvimento próprio. Na imagem, cada ponto é uma corrida completa de treinamento de LLM que dura exatamente 5 minutos. O agente trabalha em um loop autônomo em um branch de característica git e acumula commits git no script de treinamento à medida que encontra configurações melhores (com menor perda de validação ao final) da arquitetura da rede neural, do otimizador, de todos os hiperparâmetros, etc. Você pode imaginar comparar o progresso da pesquisa de diferentes prompts, diferentes agentes, etc.
Parte código, parte ficção científica e um pouco de psicose :)

880
Tive a mesma ideia, então tenho brincado com isso no nanochat. Por exemplo, aqui estão 8 agentes (4 claude, 4 codex), com 1 GPU cada rodando experimentos nanochat (tentando excluir o softcap logit sem regressão). O resumo é que não funciona e é uma bagunça... Mas ainda assim é muito bonito de se ver :)
Tentei algumas configurações: 8 pesquisadores independentes solo, 1 cientista-chefe dando trabalho para 8 pesquisadores juniores, etc. Cada programa de pesquisa é um branch git, cada cientista faz fork em um branch de funcionalidades, árvores de trabalho git para isolamento, arquivos simples para comunicações, pule Docker/VMs para simplificar no momento (acho que instruções são suficientes para evitar interferências). A organização de pesquisa roda em grades de janelas tmux de sessões interativas (como o Teams) para que seja bonito de olhar, ver o trabalho individual deles e "assumir" se necessário, ou seja, sem -p.
Mas ok, o motivo de não funcionar até agora é que as ideias dos agentes são bem ruins logo de cara, mesmo com a inteligência mais alta. Eles não pensam cuidadosamente no design dos experimentos, executam variações um pouco sem sentido, não criam linhas de base fortes nem ablatam as coisas corretamente, não controlam cuidadosamente o tempo de execução ou os fracassos. (Só para dar um exemplo, um agente ontem "descobriu" que aumentar o tamanho oculto da rede melhora a perda de validação, o que é um resultado totalmente espúrio dado que uma rede maior terá uma perda de validação menor no regime de dados infinitos, mas também treina por muito mais tempo, não está claro por que precisei vir apontar isso). Eles são muito bons em implementar qualquer ideia bem definida e descrita, mas não a geram de forma criativa.
Mas o objetivo é que você esteja programando uma organização (por exemplo, uma "organização de pesquisa") e seus agentes individuais, então o "código-fonte" é a coleção de prompts, habilidades, ferramentas, etc. e processos que o compõem. Por exemplo, uma reunião diária de pé pela manhã agora faz parte do "código de organização". E otimizar o pré-treinamento do nanochat é apenas uma das muitas tarefas (quase como uma avaliação). Então – dado um tarefa arbitrária, quão rápido sua organização de pesquisa gera progresso nela?

Thomas Wolf28 de fev. de 2026
Por que o desafio do speedrun do NanoGPT ainda não é uma pesquisa totalmente automatizada por IA?
1,27K
Melhores
Classificação
Favoritos
