nanochat ahora entrena el modelo de capacidad GPT-2 en solo 2 horas en un único nodo 8XH100 (bajando de ~3 horas hace 1 mes). ¡Acercándose mucho a ~interactivo! Se hicieron muchos ajustes y características (fp8), pero la mayor diferencia fue el cambio del conjunto de datos de FineWeb-edu a NVIDIA ClimbMix (¡buen trabajo NVIDIA!). Intenté Olmo, FineWeb, DCLM, que todos llevaron a regresiones, ClimbMix funcionó realmente bien desde el principio (hasta el punto de que soy un poco sospechoso sobre el goodharting, aunque leyendo el artículo parece ~ok). En otras noticias, después de probar algunos enfoques sobre cómo configurar las cosas, ahora tengo Agentes de IA iterando en nanochat automáticamente, así que solo dejaré esto funcionando por un tiempo, iré a relajarme un poco y disfrutar de la sensación de post-agi :). Visualizado aquí como un ejemplo: 110 cambios realizados en las últimas ~12 horas, llevando la pérdida de validación hasta ahora de 0.862415 a 0.858039 para un modelo d12, sin costo para el tiempo de reloj. El agente trabaja en una rama de características, prueba ideas, las fusiona cuando funcionan e itera. Curiosamente, en las últimas ~2 semanas casi siento que he iterado más en la "meta-configuración" donde optimizo y ajusto los flujos del agente incluso más que en el repositorio de nanochat directamente.