DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

🚨 Você sabia que o SGD básico de pequenos lotes sem impulso (ou seja, o primeiro otimizador que você aprende no ML de introdução) é praticamente tão rápido quanto o AdamW para pré-treinamento de LLM por FLOP? 📜 1/n

Acredita-se que o treinamento de LLM em pequenos lotes seja lento por FLOP, motivando o acúmulo de gradiente para simular lotes maiores, mesmo em execuções acadêmicas de pequena escala. Mostramos que uma regra simples para dimensionar os hiperparâmetros Adam permite um treinamento eficiente por FLOP até o tamanho do lote 1. 4/n

Observamos que o treinamento em pequenos lotes é altamente robusto para hiperparâmetros otimizadores, como taxa de aprendizado e momento. Isso significa que, em um orçamento fixo de ajuste de hiperparâmetros, você encontrará melhores hiperparâmetros no regime de pequenos lotes. 6/n

341,23K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável