DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

nanochat traint nu het GPT-2 capaciteitsmodel in slechts 2 uur op een enkele 8XH100 node (oorspronkelijk ~3 uur een maand geleden). We komen veel dichter bij ~interactief! Een hoop afstemming en functies (fp8) zijn toegevoegd, maar het grootste verschil was de overstap van de dataset van FineWeb-edu naar NVIDIA ClimbMix (goed werk NVIDIA!). Ik had Olmo, FineWeb, DCLM geprobeerd, wat allemaal leidde tot regressies, maar ClimbMix werkte echt goed uit de doos (tot het punt dat ik een beetje achterdochtig ben over goodharting, hoewel het lezen van het paper lijkt het ~ok te zijn). In ander nieuws, na het proberen van een paar benaderingen voor hoe ik dingen moet opzetten, heb ik nu AI Agents die automatisch op nanochat itereren, dus ik laat dit gewoon een tijdje draaien, ga even ontspannen en geniet van het gevoel van post-agi :). Gevisualiseerd hier als een voorbeeld: 110 wijzigingen aangebracht in de afgelopen ~12 uur, waardoor het validatieverlies tot nu toe van 0.862415 is gedaald naar 0.858039 voor een d12-model, zonder kosten voor de tijd op de klok. De agent werkt op een feature branch, probeert ideeën uit, voegt ze samen wanneer ze werken en iterates. Amusant genoeg heb ik me de afgelopen ~2 weken bijna het gevoel dat ik meer heb ge"iterated" op de "meta-opstelling" waar ik de agent flows nog meer optimaliseer en afstem dan de nanochat repo direct.

Boven

Positie

Favorieten