Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Atropos v0.3 ya está disponible!
Nuestro marco de Entornos RL ha recibido muchas mejoras desde v0.2 - algunos aspectos destacados:
- ¡Atropos ahora puede ser utilizado como un marco de evaluación y referencia por @rogershijin, con nuestro primer benchmark externo, Reward-Bench 2!
- Se añadió el Reasoning Gym, un repositorio de entornos externos portado a Atropos con más de 100 tareas de razonamiento por @neurosp1ke y amigos.
- @max_paperclips integró el bootcamp de razonamiento de @intern_lm, añadiendo más de 1000 nuevas tareas de razonamiento para RL.
- @dmayhem93, el ingeniero principal de Atropos, añadió docenas de correcciones de errores y otras mejoras de fiabilidad y compatibilidad, mejor soporte para múltiples entornos y CI/CD.
- Muchos de los entornos del hackathon de Atropos se han fusionado en /environments/community - enumerarlos todos ocuparía la mayor parte del espacio en pantalla, pero algunos aspectos destacados son:
VR-CLI por @JakeABoggs, Filosofía RLAIF, Profesores LLM Adaptativos, WebVoyager, diseño de proteínas por @hallerite, un entorno de enrutamiento de modelos por @gabinfay, múltiples en pruebas lean, la arena de catbots, enfrentamiento de pokemon, póker, doctores útiles, poesía sánscrita por @khoomeik y mucho más!
- Otros nuevos entornos oficialmente soportados incluyen:
Formato de respuesta siguiendo el entorno
Entorno Pydantic a JSON portado del trabajo de @MatternJustus
Seguimiento de instrucciones portado del trabajo de @natolambert y @allen_ai
Conteo de letras
- ¡47 nuevos contribuyentes!
Consulta el changelog completo aquí:

18 jul, 03:22
Just merged a PR for an environment to improve LLM as a Judge as well as evaluate models on their capability of doing judgements!
Did you know that all verifiable RL environments are nearly equivalent to benchmarks (and vice-versa!)? So we added an evaluate command to Atropos' base and now you can run benchmarks through Atropos environments.
We got frustrated with working with so many benchmark frameworks that were outdated or unusable, so we implemented evaluation-only mode into Atropos, our RL environments framework.
So our first port from outside our existing environments was @natolambert's Reward-Bench!
Note: it only supports generative reward models (regular LLM Judges) at the moment.
Check out the PR here:

24,87K
Parte superior
Clasificación
Favoritos