Atropos v0.3 is nu uit! Ons RL Environments-framework heeft veel upgrades ondergaan sinds v0.2 - enkele hoogtepunten: - Atropos kan nu worden gebruikt als een benchmark- en evaluatiekader door @rogershijin, met onze eerste externe benchmark, Reward-Bench 2! - De Reasoning Gym is toegevoegd, een externe omgeving gym repo die is overgezet naar Atropos met meer dan 100 redeneertaken door @neurosp1ke en vrienden. - @max_paperclips heeft de redeneerbootcamp van @intern_lm geïntegreerd, met meer dan 1000 nieuwe redeneertaken voor RL. - @dmayhem93, de hoofdingenieur van Atropos, heeft tientallen bugfixes en andere verbeteringen in betrouwbaarheid en compatibiliteit toegevoegd, betere ondersteuning voor meerdere omgevingen en CI/CD. - Veel van de Atropos hackathon-omgevingen zijn samengevoegd in /environments/community - om ze allemaal op te sommen zou de meeste schermruimte in beslag nemen, maar enkele hoogtepunten: VR-CLI door @JakeABoggs, Filosofie RLAIF, Adaptieve LLM-docenten, WebVoyager, eiwitontwerp door @hallerite, een modelrouteringsomgeving door @gabinfay, meerdere op lean bewijzen, de catbot-arena, pokemon showdown, poker, behulpzame dokters, sanskritpoëzie door @khoomeik en nog veel meer! - Andere opmerkelijke officieel ondersteunde nieuwe omgevingen zijn: Antwoordformaat volgens omgeving Pydantic naar JSON omgeving overgezet van het werk van @MatternJustus Instructievolging overgezet van het werk van @natolambert en @allen_ai Lettertelling - 47 gloednieuwe bijdragers! Bekijk hier de complete changelog:
Teknium (e/λ)
Teknium (e/λ)18 jul, 03:22
Ik heb zojuist een PR samengevoegd voor een omgeving om LLM te verbeteren als rechter en om modellen te evalueren op hun vermogen om oordelen te vellen! Wist je dat alle verifieerbare RL-omgevingen bijna gelijkwaardig zijn aan benchmarks (en vice versa!)? Dus we hebben een evalueercommando toegevoegd aan de basis van Atropos en nu kun je benchmarks uitvoeren via Atropos-omgevingen. We raakten gefrustreerd door het werken met zoveel verouderde of onbruikbare benchmarkframeworks, dus hebben we een evaluatiemodus zonder evaluatie geïmplementeerd in Atropos, ons RL-omgevingenframework. Dus onze eerste poort van buiten onze bestaande omgevingen was @natolambert's Reward-Bench! Opmerking: het ondersteunt op dit moment alleen generatieve beloningsmodellen (gewone LLM-rechters). Bekijk de PR hier:
24,87K