Atropos v0.3 je nyní venku! Náš framework RL Environments prošel od verze 0.2 mnoha vylepšeními - některé přednosti: - Atropos může být nyní použit jako rámec pro benchmarking a hodnocení společností @rogershijin, s naším prvním externím benchmarkem, Reward-Bench 2! - Přidán Reasoning Gym, repo posilovny pro externí prostředí portované do atropos s více než 100 úlohami uvažování od @neurosp1ke a přátel - @max_paperclips integrovaný bootcamp uvažování @intern_lm, který přidává 1000+ nových úkolů pro RL - @dmayhem93 hlavní inženýr Atroposu přidal desítky oprav chyb a další vylepšení spolehlivosti a kompatibility, lepší podporu pro multi-environment a CI/CD - Mnoho prostředí hackathonu Atropos bylo sloučeno do /environments/community - jejich seznam by zabral většinu místa na obrazovce, ale některé zajímavosti: VR-CLI od @JakeABoggs, Filozofie RLAIF, Adaptivní učitelé LLM, WebVoyager, design proteinů od @hallerite, modelové směrovací prostředí od @gabinfay, více na štíhlé dokazování, catbot aréna, pokémon showdown, poker, užitečné doktory, sanskrtská poezie od @khoomeik a mnoho dalšího! - Mezi další pozoruhodná oficiálně podporovaná nová prostředí patří: Formát odpovědi podle prostředí Prostředí Pydantic do JSON portované z @MatternJustus práce Následující instrukce převzaté z práce @natolambert a @allen_ai Počítání dopisů - 47 zbrusu nových přispěvatelů! Podívejte se na kompletní changelog zde:
Teknium (e/λ)
Teknium (e/λ)18. 7. 03:22
Právě jsem sloučil PR pro prostředí pro zlepšení LLM jako soudce a také hodnocení modelů na jejich schopnosti dělat úsudky! Věděli jste, že všechna ověřitelná prostředí RL jsou téměř ekvivalentní benchmarkům (a naopak!)? Proto jsme do základu Atroposu přidali příkaz evaluate a nyní můžete spouštět benchmarky v prostředích Atropos. Byli jsme frustrovaní z práce s tolika benchmarkovými frameworky, které byly zastaralé nebo nepoužitelné, a tak jsme implementovali režim pouze pro vyhodnocení do Atroposu, našeho frameworku RL prostředí. Takže náš první port mimo naše stávající prostředí byl @natolambert's Reward-Bench! Poznámka: v současné době podporuje pouze modely generativních odměn (běžné porotce LLM). Podívejte se na PR zde:
24,85K