Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nous venons de fusionner une PR pour un environnement afin d'améliorer LLM en tant que juge ainsi que d'évaluer les modèles sur leur capacité à rendre des jugements !
Saviez-vous que tous les environnements RL vérifiables sont presque équivalents aux benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande d'évaluation à la base d'Atropos et maintenant vous pouvez exécuter des benchmarks à travers les environnements d'Atropos.
Nous étions frustrés de travailler avec tant de frameworks de benchmark qui étaient obsolètes ou inutilisables, alors nous avons implémenté un mode d'évaluation uniquement dans Atropos, notre framework d'environnements RL.
Ainsi, notre premier port depuis nos environnements existants était le Reward-Bench de @natolambert !
Remarque : il ne prend en charge que les modèles de récompense génératifs (juges LLM réguliers) pour le moment.
Consultez la PR ici :

20,54K
Meilleurs
Classement
Favoris