Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tocmai am fuzionat un PR pentru un mediu care să îmbunătățească LLM ca judecător, precum și să evalueze modele în ceea ce privește capacitatea lor de a face judecăți!
Știați că toate mediile RL verificabile sunt aproape echivalente cu benchmark-urile (și invers!)? Așa că am adăugat o comandă de evaluare la baza lui Atropos și acum puteți rula benchmark-uri prin medii Atropos.
Am fost frustrați să lucrăm cu atât de multe cadre de referință care erau învechite sau inutilizabile, așa că am implementat modul de evaluare în Atropos, cadrul nostru de medii RL.
Așa că primul nostru port din afara mediilor noastre existente a fost @natolambert's Reward-Bench!
Notă: acceptă doar modele de recompensă generativă (judecători LLM obișnuiți) în acest moment.
Consultați PR-ul aici:

20,55K
Limită superioară
Clasament
Favorite