Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nous Research
Atropos v0.3 est maintenant disponible !
Notre cadre d'environnements RL a connu de nombreuses améliorations depuis v0.2 - quelques points forts :
- Atropos peut désormais être utilisé comme un cadre de référence et d'évaluation par @rogershijin, avec notre premier benchmark externe, Reward-Bench 2 !
- Ajout du Reasoning Gym, un dépôt d'environnement externe porté dans Atropos avec plus de 100 tâches de raisonnement par @neurosp1ke et ses amis.
- @max_paperclips a intégré le bootcamp de raisonnement de @intern_lm, ajoutant plus de 1000 nouvelles tâches de raisonnement pour RL.
- @dmayhem93, l'ingénieur principal d'Atropos, a ajouté des dizaines de corrections de bogues et d'autres améliorations de fiabilité et de compatibilité, un meilleur support pour les environnements multiples, et CI/CD.
- Beaucoup des environnements hackathon d'Atropos ont été fusionnés dans /environments/community - les énumérer tous prendrait presque tout l'espace de l'écran, mais quelques points forts :
VR-CLI par @JakeABoggs, Philosophie RLAIF, Enseignants LLM Adaptatifs, WebVoyager, conception de protéines par @hallerite, un environnement de routage de modèle par @gabinfay, plusieurs sur la preuve lean, l'arène catbot, pokemon showdown, poker, médecins utiles, poésie sanskrite par @khoomeik et bien plus encore !
- D'autres nouveaux environnements officiellement supportés incluent :
Format de réponse suivant l'environnement
Environnement Pydantic vers JSON porté du travail de @MatternJustus
Suivi des instructions porté du travail de @natolambert et @allen_ai
Comptage de lettres
- 47 nouveaux contributeurs !
Consultez le changelog complet ici :

Teknium (e/λ)18 juil., 03:22
Nous venons de fusionner une PR pour un environnement afin d'améliorer LLM en tant que juge ainsi que d'évaluer les modèles sur leur capacité à rendre des jugements !
Saviez-vous que tous les environnements RL vérifiables sont presque équivalents aux benchmarks (et vice-versa !) ? Nous avons donc ajouté une commande d'évaluation à la base d'Atropos et maintenant vous pouvez exécuter des benchmarks à travers les environnements d'Atropos.
Nous étions frustrés de travailler avec tant de frameworks de benchmark qui étaient obsolètes ou inutilisables, alors nous avons implémenté un mode d'évaluation uniquement dans Atropos, notre framework d'environnements RL.
Ainsi, notre premier port depuis nos environnements existants était le Reward-Bench de @natolambert !
Remarque : il ne prend en charge que les modèles de récompense génératifs (juges LLM réguliers) pour le moment.
Consultez la PR ici :

24,87K
Nous Research a reposté
C’était amusant de travailler avec l’équipe de @huggingface pour faire de cette fonctionnalité une réalité ! Merci pour tout votre travail et votre créativité @pcuenq @reach_vb @julien_c @ariG23498 !
Merci également à @NousResearch @Teknium1 @Euclaise_ d’avoir été les premiers à adopter des cahiers de modèles personnalisés et d’y avoir travaillé avec nous !
31,37K
Nous avons apporté quelques mises à jour à notre API et à NousChat au cours des dernières semaines :
L’accès à notre API Inference ne se fait plus derrière une liste d’attente : les nouveaux utilisateurs bénéficient d’un accès immédiat
Hermes-3-Llama-3.1-405B est maintenant disponible via l’API (en plus de Hermes-3-Llama-3.1-70B, DeepHermes-3-Llama-3-8B-Preview et DeepHermes-3-Mistral-24B-Preview)
Les limites de débit API ont été doublées (maintenant 100 tr/min et 80 000 tpm)
ET notre nouvelle expérience de chat est en cours de déploiement à l’adresse
Votre compte de chat y est lié à votre compte à l’adresse suivante afin que vos crédits API puissent être utilisés pour interagir avec le chat.

19,72K
Nous Research a reposté
Enfin, j’ai terminé et fusionné l’environnement SWE_RL décrit par l’article SWE RL de Meta dans Atropos - Un environnement vraiment difficile qui peut apprendre à un modèle à être un bien meilleur agent de codage !
Consultez le communiqué de presse :
Consultez l’article SWE-RL de Meta :

11,73K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables