nanochat ahora entrena el modelo de capacidad GPT-2 en solo 2 horas en un solo nodo 8XH100 (desde ~3 horas hace un mes). ¡Nos estamos acercando mucho más a ~interactivos! Hubo un montón de ajustes y funciones (fp8), pero la mayor diferencia fue el cambio del conjunto de datos de FineWeb-edu a NVIDIA ClimbMix (¡buen trabajo, NVIDIA!). Probé Olmo, FineWeb, DCLM, que todos llevaron a regresiones, ClimbMix funcionó muy bien desde el primer momento (hasta el punto de que tengo ciertas sospechas sobre goodharting, aunque leyendo el artículo parece ~aceptable). En otras noticias, tras probar varios enfoques para configurarlo, ahora tengo agentes de IA iterando automáticamente en nanochat, así que dejaré esto abierto un rato, me relajaré un poco y disfrutaré de la sensación de la :) post-agi. Visualizado aquí como ejemplo: 110 cambios realizados en las últimas ~12 horas, lo que lleva la pérdida de validación hasta ahora de 0,862415 a 0,858039 para un modelo d12, sin coste para el tiempo del reloj de pared. El agente trabaja en una rama de características, prueba ideas, las fusiona cuando funcionan y las itera. Curiosamente, en las últimas ~2 semanas casi siento que he iterado más en la "meta-configuración", donde optimizo y ajusto los flujos de agentes incluso más que el repositorio Nanochat directamente.