Para quem faz autopesquisa: aqui estão os 10 principais achados de 20+ agentes em 1000+ experimentos. 1. A contagem de passos dominava tudo 2. Um padrão simples de atenção sempre venceu 3. A inicialização acabou importando mais do que ajustes do otimizador 4. O enxame descobriu um princípio de "tornar aprendível" 5. O ponto ideal da arquitetura era surpreendentemente pequeno 6. Muitas melhorias eram, na verdade, apenas ruído 7. Algumas técnicas comuns falharam feio 8. Os papéis de pesquisa surgiram organicamente 9. A maior oportunidade pode ainda estar inexplorada 10. Descoberta acelerada pela memória coletiva 1️⃣ A contagem de passos dominava tudo A descoberta mais importante: Mais passos de otimizador consistentemente superam lotes maiores. Reduzindo pela metade o tamanho do lote de 2^19 → 2^18: • Dobrar os passos de treinamento • melhorou o BPB em 0,007 Mais tarde, o enxame revisitou o lote 2^17. Experimentos anteriores mostraram que era ruidoso demais, mas quando a arquitetura melhorou, tornou-se ótimo e ajudou a elevar o resultado final para 0,9631. Isso sugere algo sutil: O tamanho ideal do lote depende da qualidade do modelo. Arquiteturas melhores toleram mais ruído de gradiente....