Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

clem 🤗
Współzałożyciel i dyrektor generalny @HuggingFace 🤗 , otwartej i opartej na współpracy platformie dla konstruktorów sztucznej inteligencji
To byłoby takie 🔥🔥🔥 @Alibaba_Qwen @Kimi_Moonshot

Teknium (e/λ)2 godz. temu
Gdybym mógł dzisiaj coś sobie życzyć, życzyłbym sobie, aby Kimi i Qwen opublikowali swoje zbiory danych po treningu, tak jak robi to Nous 🫣🤗
W ten sposób moglibyśmy znacznie łatwiej budować na pracy innych!
2,55K
Użytkownik clem 🤗 udostępnił ponownie
Właśnie opublikowaliśmy ponad 100 pośrednich punktów kontrolnych oraz nasze logi treningowe z treningu SmolLM3-3B.
Mamy nadzieję, że to będzie przydatne dla badaczy pracujących nad interpretacją mechanizmów, dynamiką treningu, RL i innymi tematami :)
Logi treningowe:
-> Zwykła strata treningowa (przerwy w stratach są spowodowane zmianą mieszanki), grad_norm itd..
-> Metryki na poziomie warstwy/bloku (norma l1/l2, średnia, minimum, maksimum, kurtoza)
Punkty kontrolne:
-> wstępne szkolenie co 40k kroków (94,4B tokenów)
-> wydłużenie kontekstu co 4k kroków (9,4B tokenów)
-> po treningu: SFT, w trakcie treningu, zupa APO, ekspert LC

17K
Użytkownik clem 🤗 udostępnił ponownie
500 tys. próbek wielojęzycznych danych po treningu w 5 językach: francuskim, hiszpańskim, włoskim, niemieckim i portugalskim.
Aby rozwiązać problem braku wielojęzycznych zbiorów danych po treningu, stworzyliśmy te próbki i stwierdziliśmy, że poprawiają one wyniki w benchmarkach takich jak Global MMLU, Belebele i Multi-IF.

7,41K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi