Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

🍓🍓🍓
Eu sou o Homem Morango. Os assinantes recebem as opiniões primeiro.
Um ecossistema próspero é bom. De verdade.
É bom ver pessoas como Jerry, Mira, Ilya e Yann tentando construir com uma fração do orçamento da OpenAI e Anthropic.
Mas eu realmente não vejo a visão.
Eles não têm as cinco coisas que mais importam:
Computar
Gosto de pesquisa
Talento
Capital
Distribuição
O melhor cenário é que eles consigam um avanço real e sejam adquiridos pelo laboratório que deixaram.
Minha verdadeira reclamação é que eles têm a audácia de sugar computação preciosa do Príncipe Sam e do Lorde Dario.
Deixe o ego de lado. Derrote a China. Chegue para AGI.

Mira Murati4 horas atrás
Agradecido a Jensen e @nvidia equipe pelo apoio. Juntos, estamos trabalhando para implantar pelo menos 1GW de sistemas Vera Rubin, trazendo IA colaborativa adaptável para todos.

54
Isso deveria ser a única coisa que toda a humanidade está pensando e falando.
Há modelos significativamente melhores chegando em breve e as coisas vão ficar estranhas.

Andrej Karpathy19 horas atrás
Três dias atrás, deixei o autoresearch tuning nanochat por ~2 dias no modelo depth=12. Encontrou ~20 mudanças que melhoraram a perda de validação. Testei essas mudanças ontem e todas foram aditivas e transferidas para modelos maiores (profundidade=24). Somando todas essas mudanças, hoje medi que o "Tempo até GPT-2" do ranking cai de 2,02 horas para 1,80 horas (~11% de melhora), e essa será a nova entrada no ranking. Então sim, essas são melhorias reais e fazem uma diferença real. Estou um pouco surpreso que minha primeira tentativa ingênua já tenha funcionado tão bem, além do que eu achava que já era um projeto bastante bem ajustado manualmente.
Isso é inédito para mim porque estou muito acostumado a fazer a otimização iterativa do treinamento de redes neurais manualmente. Você cria ideias, implementa, verifica se funcionam (melhor perda de validação), cria novas ideias baseadas nisso, lê alguns artigos para se inspirar, etc etc. Esse é o pão de cada dia do que faço diariamente há 2 décadas. Ver o agente fazer todo esse fluxo de trabalho de ponta a ponta e sozinho, enquanto processava cerca de 700 mudanças de forma autônoma, é impressionante. Ele realmente analisava a sequência dos resultados dos experimentos e usava isso para planejar os próximos. Não é uma "pesquisa" inovadora ou inovadora (ainda), mas todos os ajustes são "reais", eu não os encontrei manualmente antes, e eles se acumulam e na verdade melhoram o nanochat. Entre as coisas maiores, por exemplo:
- Percebeu um esquecimento de que meu QKnorm sem parâmetros não tinha um multiplicador de escalador acoplado, então minha atenção estava muito dispersa. O agente encontrou multiplicadores para afiá-la, apontando para trabalhos futuros.
- Descobriu que os Value Embeddings gostam muito de regularização e eu não estava aplicando nenhuma (ops).
- Descobriu que minha atenção em banda era conservadora demais (esqueci de afinar).
- Descobriu que os betas do AdamW estavam todos bagunçados.
- Ajustou o cronograma de perda de peso.
- Ajustou a inicialização da rede.
Isso além de toda a afinação que já fiz ao longo de um bom tempo. O commit exato está aqui, desta "rodada 1" de autopesquisa. Vou começar a "rodada 2" e, paralelamente, estou analisando como múltiplos agentes podem colaborar para desbloquear o paralelismo.
Todos os laboratórios de LLM Frontier fazem isso. É a batalha final contra o chefe. É muito mais complexo em escala, claro – você não tem apenas um trem único. Arquivo PY para ajustar. Mas fazer isso é "só engenharia" e vai funcionar. Você cria um enxame de agentes, faz com que colaborem para ajustar modelos menores, promove as ideias mais promissoras para escalas cada vez maiores, e humanos (opcionalmente) contribuem nas bordas.
E, de forma mais geral, *qualquer* métrica que você se importe e que seja razoavelmente eficiente de avaliar (ou que tenha métricas proxy mais eficientes, como treinar uma rede menor) pode ser pesquisada automaticamente por um enxame de agentes. Vale a pena pensar se seu problema também se encaixa nesse quadro.

77
Melhores
Classificação
Favoritos
