Atropos v0.3 er nå ute! RL Environments-rammeverket vårt har sett mange oppgraderinger siden v0.2 - noen høydepunkter: - Atropos kan nå brukes som et benchmarking- og evalueringsrammeverk av @rogershijin, med vår første eksterne benchmark, Reward-Bench 2! - La til Reasoning Gym, et eksternt treningsstudio som er portert til atropos med over 100 resonneringsoppgaver av @neurosp1ke og venner. - @max_paperclips integrerte @intern_lm resonnement-bootcamp, og la til 1000+ nye resonneringsoppgaver for RL - @dmayhem93 hovedingeniøren til Atropos lagt til dusinvis av feilrettinger og andre forbedringer av pålitelighet og kompatibilitet, bedre støtte for multi-miljø og CI/CD - Mange av Atropos hackathon-miljøene har blitt slått sammen til /environments/community - å liste dem alle ville ta opp mesteparten av skjermplassen, men noen høydepunkter: VR-CLI av @JakeABoggs, filosofi RLAIF, adaptive LLM-lærere, WebVoyager, proteindesign av @hallerite, et modellrutingsmiljø av @gabinfay, flere på lean-bevis, catbot-arenaen, pokémon-oppgjør, poker, hjelpsomme leger, sanskrit-poesi av @khoomeik og mye mer! - Andre bemerkelsesverdige offisielt støttede nye miljøer inkluderer: Svarformat følgende miljø Pydantisk til JSON-miljø portert fra @MatternJustus arbeid Instruksjon Følger portert fra @natolambert og @allen_ai arbeid Brevtelling - 47 helt nye bidragsytere! Sjekk ut hele endringsloggen her:
Teknium (e/λ)
Teknium (e/λ)18. juli, 03:22
Har nettopp slått sammen en PR for et miljø for å forbedre LLM som dommer, samt evaluere modeller på deres evne til å gjøre vurderinger! Visste du at alle verifiserbare RL-miljøer er nesten likeverdige med benchmarks (og omvendt!)? Så vi la til en evalueringskommando til Atropos' base, og nå kan du kjøre benchmarks gjennom Atropos-miljøer. Vi ble frustrerte over å jobbe med så mange benchmark-rammeverk som var utdaterte eller ubrukelige, så vi implementerte kun evalueringsmodus i Atropos, vårt RL-miljørammeverk. Så vår første havn utenfor våre eksisterende miljøer var @natolambert's Reward-Bench! Merk: den støtter bare generative belønningsmodeller (vanlige LLM-dommere) for øyeblikket. Sjekk ut PR her:
24,85K