Właśnie połączyłem PR dla środowiska, aby poprawić LLM jako Sędziego oraz oceniać modele pod kątem ich zdolności do wydawania wyroków! Czy wiesz, że wszystkie weryfikowalne środowiska RL są niemal równoważne benchmarkom (i odwrotnie!)? Dlatego dodaliśmy polecenie oceny do podstawy Atropos i teraz możesz uruchamiać benchmarki przez środowiska Atropos. Byliśmy sfrustrowani pracą z tak wieloma przestarzałymi lub nieużywalnymi frameworkami benchmarkowymi, więc wdrożyliśmy tryb tylko do oceny w Atropos, naszym frameworku środowisk RL. Naszym pierwszym portem z zewnątrz naszych istniejących środowisk był Reward-Bench @natolambert! Uwaga: obecnie obsługuje tylko generatywne modele nagród (zwykli Sędziowie LLM). Sprawdź PR tutaj:
20,54K