o nanochat agora treina o modelo de capacidade GPT-2 em apenas 2 horas em um único nó 8XH100 (em relação a ~3 horas há 1 mês). Estou chegando muito mais perto de ~interativo! Vários ajustes e recursos (fp8) foram implementados, mas a maior diferença foi a troca do conjunto de dados do FineWeb-edu para o NVIDIA ClimbMix (bom trabalho, NVIDIA!). Eu já tinha tentado Olmo, FineWeb, DCLM, que todos levaram a regressões, o ClimbMix funcionou muito bem logo de cara (a ponto de eu ficar um pouco desconfiado sobre o goodharting, embora lendo o artigo pareça ~ok). Em outras notícias, depois de tentar algumas abordagens de configuração, agora tenho agentes de IA iterando automaticamente no nanochat, então vou deixar isso rodando por um tempo, relaxar um pouco e aproveitar a sensação do :) pós-agi. Visualizado aqui como exemplo: 110 alterações feitas nas últimas ~12 horas, elevando a perda de validação até agora de 0,862415 para 0,858039 para um modelo d12, sem custo para o tempo do relógio de parede. O agente trabalha em um ramo de funcionalidades, testa ideias, as funde quando funcionam e itera. Curiosamente, nas últimas ~2 semanas quase sinto que iterei mais na "meta-configuração", onde otimizo e ajusto os fluxos de agentes ainda mais do que o repositório do nanochat diretamente.