nanochat tränar nu GPT-2-kapabilitetsmodellen på bara 2 timmar på en enda 8XH100-nod (ner från ~3 timmar för en månad sedan). Kommer mycket närmare ~interaktivt! En massa justeringar och funktioner (fp8) gick in men den största skillnaden var att datasetet byttes från FineWeb-edu till NVIDIA ClimbMix (bra jobbat NVIDIA!). Jag hade testat Olmo, FineWeb, DCLM som alla ledde till regressioner, ClimbMix fungerade riktigt bra direkt ur lådan (till den grad att jag är lite misstänksam mot goodharting, även om det verkar ~ok att läsa artikeln). I övrigt, efter att ha testat några metoder för hur man sätter upp saker, har jag nu AI-agenter som itererar nanochat automatiskt, så jag låter det här köra ett tag, går och slappnar av lite och njuter av känslan av post-agi :). Visualiserat här som exempel: 110 ändringar gjorda under de senaste ~12 timmarna, vilket har sänkt valideringsförlusten hittills från 0,862415 till 0,858039 för en d12-modell, utan kostnad för väggklockstiden. Agenten arbetar med en feature-branch, provar idéer, slår ihop dem när de fungerar och itererar. Roligt nog känns det nästan som att jag under de senaste ~2 veckorna har itererat mer på "meta-setup" där jag optimerar och justerar agentflödet ännu mer än på nanochat-repoet direkt.