Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 est maintenant disponible !
Notre cadre d'environnements RL a connu de nombreuses améliorations depuis v0.2 - quelques points forts :
- Atropos peut désormais être utilisé comme un cadre de référence et d'évaluation par @rogershijin, avec notre premier benchmark externe, Reward-Bench 2 !
- Ajout du Reasoning Gym, un dépôt d'environnement externe porté dans Atropos avec plus de 100 tâches de raisonnement par @neurosp1ke et ses amis.
- @max_paperclips a intégré le bootcamp de raisonnement de @intern_lm, ajoutant plus de 1000 nouvelles tâches de raisonnement pour RL.
- @dmayhem93, l'ingénieur principal d'Atropos, a ajouté des dizaines de corrections de bogues et d'autres améliorations de fiabilité et de compatibilité, un meilleur support pour les environnements multiples, et CI/CD.
- Beaucoup des environnements hackathon d'Atropos ont été fusionnés dans /environments/community - les énumérer tous prendrait presque tout l'espace de l'écran, mais quelques points forts :
VR-CLI par @JakeABoggs, Philosophie RLAIF, Enseignants LLM Adaptatifs, WebVoyager, conception de protéines par @hallerite, un environnement de routage de modèle par @gabinfay, plusieurs sur la preuve lean, l'arène catbot, pokemon showdown, poker, médecins utiles, poésie sanskrite par @khoomeik et bien plus encore !
- D'autres nouveaux environnements officiellement supportés incluent :
Format de réponse suivant l'environnement
Environnement Pydantic vers JSON porté du travail de @MatternJustus
Suivi des instructions porté du travail de @natolambert et @allen_ai
Comptage de lettres
- 47 nouveaux contributeurs !
Consultez le changelog complet ici :

18 juil., 03:22
Nous venons de fusionner une PR pour un environnement afin d'améliorer LLM en tant que juge ainsi que d'évaluer les modèles sur leur capacité à rendre des jugements !
Saviez-vous que tous les environnements RL vérifiables sont presque équivalents aux benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande d'évaluation à la base d'Atropos et maintenant vous pouvez exécuter des benchmarks à travers les environnements d'Atropos.
Nous étions frustrés de travailler avec tant de frameworks de benchmark qui étaient obsolètes ou inutilisables, alors nous avons implémenté un mode d'évaluation uniquement dans Atropos, notre framework d'environnements RL.
Ainsi, notre premier port depuis nos environnements existants était le Reward-Bench de @natolambert !
Remarque : il ne prend en charge que les modèles de récompense génératifs (juges LLM réguliers) pour le moment.
Consultez la PR ici :

24,87K
Meilleurs
Classement
Favoris