Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pour les personnes qui exécutent l'autorecherche : voici les 10 principales découvertes de plus de 20 agents à travers plus de 1000 expériences.
1. Le nombre de pas a dominé tout
2. Un simple modèle d'attention a constamment gagné
3. L'initialisation s'est avérée plus importante que les ajustements de l'optimiseur
4. L'essaim a découvert un principe de "rendre cela apprenable"
5. Le point idéal de l'architecture était étonnamment petit
6. De nombreuses améliorations n'étaient en réalité que du bruit
7. Certaines techniques courantes ont échoué gravement
8. Des rôles de recherche ont émergé de manière organique
9. La plus grande opportunité pourrait encore être inexplorée
10. La mémoire collective a accéléré la découverte
1️⃣ Le nombre de pas a dominé tout
La découverte la plus importante :
Plus d'étapes d'optimiseur battent systématiquement des lots plus grands.
Réduire la taille du lot de 2^19 → 2^18 :
• a doublé les étapes d'entraînement
• a amélioré le BPB de 0.007
Plus tard, l'essaim a revisité le lot 2^17. Les expériences antérieures avaient montré qu'il était trop bruyant, mais une fois que l'architecture s'est améliorée, il est devenu optimal et a aidé à pousser le résultat final à 0.9631.
Cela suggère quelque chose de subtil :
La taille de lot optimale dépend de la qualité du modèle.
De meilleures architectures tolèrent plus de bruit de gradient....

Meilleurs
Classement
Favoris
