DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Tocmai am fuzionat un PR pentru un mediu care să îmbunătățească LLM ca judecător, precum și să evalueze modele în ceea ce privește capacitatea lor de a face judecăți! Știați că toate mediile RL verificabile sunt aproape echivalente cu benchmark-urile (și invers!)? Așa că am adăugat o comandă de evaluare la baza lui Atropos și acum puteți rula benchmark-uri prin medii Atropos. Am fost frustrați să lucrăm cu atât de multe cadre de referință care erau învechite sau inutilizabile, așa că am implementat modul de evaluare în Atropos, cadrul nostru de medii RL. Așa că primul nostru port din afara mediilor noastre existente a fost @natolambert's Reward-Bench! Notă: acceptă doar modele de recompensă generativă (judecători LLM obișnuiți) în acest moment. Consultați PR-ul aici:

20,55K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante