DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Nous venons de fusionner une PR pour un environnement afin d'améliorer LLM en tant que juge ainsi que d'évaluer les modèles sur leur capacité à rendre des jugements ! Saviez-vous que tous les environnements RL vérifiables sont presque équivalents aux benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande d'évaluation à la base d'Atropos et maintenant vous pouvez exécuter des benchmarks à travers les environnements d'Atropos. Nous étions frustrés de travailler avec tant de frameworks de benchmark qui étaient obsolètes ou inutilisables, alors nous avons implémenté un mode d'évaluation uniquement dans Atropos, notre framework d'environnements RL. Ainsi, notre premier port depuis nos environnements existants était le Reward-Bench de @natolambert ! Remarque : il ne prend en charge que les modèles de récompense génératifs (juges LLM réguliers) pour le moment. Consultez la PR ici :

20,54K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables