Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 a fost acum disponibil!
Cadrul nostru RL Environments a cunoscut o mulțime de actualizări de la v0.2 - câteva puncte importante:
- Atropos poate fi acum folosit ca cadru de benchmarking și evaluări de @rogershijin, cu primul nostru benchmark extern, Reward-Bench 2!
- S-a adăugat Reasoning Gym, un depozit de gimnastică de mediu extern portat în atropos cu peste 100 de sarcini de raționament de @neurosp1ke și prieteni
- @max_paperclips bootcamp de raționament integrat @intern_lm, adăugând 1000+ noi sarcini de raționament pentru RL
- @dmayhem93 inginerul șef al Atropos a adăugat zeci de remedieri de erori și alte îmbunătățiri de fiabilitate și compatibilitate, suport mai bun pentru mai multe medii și CI/CD
- Multe dintre mediile hackathon-ului Atropos au fost fuzionate în /environments/community - pentru a le enumera pe toate ar ocupa cea mai mare parte a spațiului de pe ecran, dar câteva puncte importante:
VR-CLI de @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, design de proteine de @hallerite, un mediu de rutare a modelelor de @gabinfay, multiple pe lean proving, arena catbot, pokemon showdown, poker, medici utili, poezie sanscrită de @khoomeik și multe altele!
- Alte medii noi notabile acceptate oficial includ:
Formatul răspunsului urmează mediul
Mediul Pydantic în JSON portat de la @MatternJustus de lucru
Instrucțiuni care urmează portate din munca lui @natolambert și @allen_ai
Numărarea literelor
- 47 de contribuitori noi!
Consultați jurnalul complet de modificări aici:

18 iul., 03:22
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements!
Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments.
We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework.
So our first port from outside our existing environments was @natolambert's Reward-Bench!
Note: it only supports generative reward models (regular LLM Judges) at the moment.
Check out the PR here:

24,89K
Limită superioară
Clasament
Favorite