Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 Você sabia que o SGD básico de pequenos lotes sem impulso (ou seja, o primeiro otimizador que você aprende no ML de introdução) é praticamente tão rápido quanto o AdamW para pré-treinamento de LLM por FLOP? 📜 1/n

Acredita-se que o treinamento de LLM em pequenos lotes seja lento por FLOP, motivando o acúmulo de gradiente para simular lotes maiores, mesmo em execuções acadêmicas de pequena escala. Mostramos que uma regra simples para dimensionar os hiperparâmetros Adam permite um treinamento eficiente por FLOP até o tamanho do lote 1. 4/n

Observamos que o treinamento em pequenos lotes é altamente robusto para hiperparâmetros otimizadores, como taxa de aprendizado e momento. Isso significa que, em um orçamento fixo de ajuste de hiperparâmetros, você encontrará melhores hiperparâmetros no regime de pequenos lotes. 6/n

341,23K
Melhores
Classificação
Favoritos