DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

nanochat entraîne maintenant le modèle de capacité GPT-2 en seulement 2 heures sur un seul nœud 8XH100 (contre environ 3 heures il y a un mois). Nous nous rapprochons beaucoup de ~interactif ! Un tas de réglages et de fonctionnalités (fp8) ont été ajoutés, mais la plus grande différence a été le changement de jeu de données de FineWeb-edu à NVIDIA ClimbMix (beau travail NVIDIA !). J'avais essayé Olmo, FineWeb, DCLM qui ont tous conduit à des régressions, ClimbMix a très bien fonctionné dès le départ (au point que je suis légèrement suspicieux à propos du goodharting, bien qu'en lisant l'article, cela semble ~ok). Dans d'autres nouvelles, après avoir essayé quelques approches pour configurer les choses, j'ai maintenant des agents IA itérant sur nanochat automatiquement, donc je vais juste laisser cela fonctionner un moment, me détendre un peu et profiter de la sensation post-agi :). Visualisé ici comme exemple : 110 changements effectués au cours des ~12 dernières heures, faisant passer la perte de validation jusqu'à présent de 0.862415 à 0.858039 pour un modèle d12, sans coût pour le temps réel. L'agent travaille sur une branche de fonctionnalités, essaie des idées, les fusionne quand elles fonctionnent et itère. Amusant, au cours des ~2 dernières semaines, j'ai presque l'impression d'avoir itéré davantage sur le "meta-setup" où j'optimise et ajuste les flux d'agents encore plus que le dépôt nanochat directement.

Meilleurs

Classement

Favoris