Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tocmai am lansat 100+ puncte de control intermediare și jurnalele noastre de antrenament de la antrenamentul SmolLM3-3B.
Sperăm că acest lucru poate fi util cercetătorului care lucrează la interpretarea mecanică, dinamica antrenamentului, RL și alte subiecte :)
Jurnale de instruire:
-> Pierderea obișnuită de antrenament (decalajul în pierdere se datorează schimbării amestecului), grad_norm etc.
-> Metrici per strat/bloc (normă l1/l2, medie, min, max, curtoză)
Punctele:
-> pre-antrenament la fiecare pas de 40k (94,4 miliarde de jetoane)
-> extensie de context lungă la fiecare pas de 4k (9,4 miliarde de jetoane)
-> post-training: SFT, mid-training, supă APO, expert LC

23,09K
Limită superioară
Clasament
Favorite