Atropos v0.3 jest już dostępny! Nasz framework RL Environments przeszedł wiele ulepszeń od v0.2 - oto niektóre z nich: - Atropos może teraz być używany jako framework do benchmarkingu i oceniania przez @rogershijin, z naszym pierwszym zewnętrznym benchmarkiem, Reward-Bench 2! - Dodano Reasoning Gym, zewnętrzny repozytor środowisk gym przeniesiony do Atropos z ponad 100 zadaniami związanymi z rozumowaniem od @neurosp1ke i przyjaciół. - @max_paperclips zintegrował bootcamp rozumowania @intern_lm, dodając ponad 1000 nowych zadań rozumowania dla RL. - @dmayhem93, główny inżynier Atropos, dodał dziesiątki poprawek błędów oraz inne ulepszenia niezawodności i kompatybilności, lepsze wsparcie dla wielu środowisk oraz CI/CD. - Wiele środowisk hackathonowych Atropos zostało połączonych w /environments/community - wymienienie ich wszystkich zajęłoby większość miejsca na ekranie, ale oto niektóre z nich: VR-CLI od @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, projektowanie białek od @hallerite, środowisko routingu modeli od @gabinfay, wiele na dowodzenie lean, arena catbota, pokemon showdown, poker, pomocni lekarze, poezja sanskrycka od @khoomeik i wiele więcej! - Inne godne uwagi nowo dodane oficjalnie wspierane środowiska to: Format odpowiedzi zgodny ze środowiskiem Środowisko Pydantic do JSON przeniesione z pracy @MatternJustus Podążanie za instrukcjami przeniesione z pracy @natolambert i @allen_ai Liczenie liter - 47 zupełnie nowych współpracowników! Sprawdź pełną listę zmian tutaj:
Teknium (e/λ)
Teknium (e/λ)18 lip, 03:22
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements! Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments. We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework. So our first port from outside our existing environments was @natolambert's Reward-Bench! Note: it only supports generative reward models (regular LLM Judges) at the moment. Check out the PR here:
24,87K