Atropos v0.3 är nu ute! Vårt ramverk för RL-miljöer har sett många uppgraderingar sedan v0.2 - några höjdpunkter: - Atropos kan nu användas som ett ramverk för benchmarking och utvärdering av @rogershijin, med vår första externa benchmark, Reward-Bench 2! - Lade till Reasoning Gym, ett repo för gym i extern miljö som överfördes till atropos med över 100 resonemangsuppgifter av @neurosp1ke och vänner - @max_paperclips integrerade @intern_lm:s resonemang bootcamp och lade till 1000+ nya resonemangsuppgifter för RL - @dmayhem93 lade Atropos chefsingenjör till dussintals buggfixar och andra förbättringar av tillförlitlighet och kompatibilitet, bättre stöd för flera miljöer och CI/CD - Många av Atropos hackathon-miljöer har slagits ihop till /environments/community - att lista dem alla skulle ta upp det mesta av skärmutrymmet, men några höjdpunkter: VR-CLI av @JakeABoggs, filosofi RLAIF, adaptiva LLM-lärare, WebVoyager, proteindesign av @hallerite, en modellroutingmiljö av @gabinfay, flera på lean proving, catbot arena, pokemon showdown, poker, hjälpsamma läkare, sanskritpoesi av @khoomeik och så mycket mer! - Andra viktiga nya miljöer som stöds officiellt är: Svarsformat följande miljö Pydantic till JSON-miljö porterad från @MatternJustus arbete Instruktion Följer portat från @natolambert och @allen_ai arbete Räkning av bokstäver - 47 helt nya bidragsgivare! Kolla in hela ändringsloggen här:
Teknium (e/λ)
Teknium (e/λ)18 juli 03:22
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements! Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments. We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework. So our first port from outside our existing environments was @natolambert's Reward-Bench! Note: it only supports generative reward models (regular LLM Judges) at the moment. Check out the PR here:
24,9K