Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Właśnie połączyłem PR dla środowiska, aby poprawić LLM jako Sędziego oraz oceniać modele pod kątem ich zdolności do wydawania wyroków! Czy wiesz, że wszystkie weryfikowalne środowiska RL są niemal równoważne benchmarkom (i odwrotnie!)? Dlatego dodaliśmy polecenie oceny do podstawy Atropos i teraz możesz uruchamiać benchmarki przez środowiska Atropos. Byliśmy sfrustrowani pracą z tak wieloma przestarzałymi lub nieużywalnymi frameworkami benchmarkowymi, więc wdrożyliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL. Naszym pierwszym portem z zewnątrz naszych istniejących środowisk był Reward-Bench @natolambert! Uwaga: obecnie obsługuje tylko generatywne modele nagród (zwykli Sędziowie LLM). Sprawdź PR tutaj:

20,54K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi