Tocmai am lansat 100+ puncte de control intermediare și jurnalele noastre de antrenament de la antrenamentul SmolLM3-3B. Sperăm că acest lucru poate fi util cercetătorului care lucrează la interpretarea mecanică, dinamica antrenamentului, RL și alte subiecte :) Jurnale de instruire: -> Pierderea obișnuită de antrenament (decalajul în pierdere se datorează schimbării amestecului), grad_norm etc. -> Metrici per strat/bloc (normă l1/l2, medie, min, max, curtoză) Punctele: -> pre-antrenament la fiecare pas de 40k (94,4 miliarde de jetoane) -> extensie de context lungă la fiecare pas de 4k (9,4 miliarde de jetoane) -> post-training: SFT, mid-training, supă APO, expert LC
23,09K