Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Acabamos de fusionar un PR para un entorno que mejora LLM como Juez y evalúa modelos en su capacidad para hacer juicios!
¿Sabías que todos los entornos RL verificables son casi equivalentes a los benchmarks (y viceversa!)? Así que añadimos un comando de evaluación a la base de Atropos y ahora puedes ejecutar benchmarks a través de los entornos de Atropos.
Nos frustramos al trabajar con tantos marcos de benchmark que estaban desactualizados o eran inutilizables, así que implementamos un modo solo de evaluación en Atropos, nuestro marco de entornos RL.
Así que nuestro primer puerto desde fuera de nuestros entornos existentes fue el Reward-Bench de @natolambert!
Nota: solo admite modelos de recompensa generativa (Jueces LLM regulares) en este momento.
Consulta el PR aquí:

20,54K
Parte superior
Clasificación
Favoritos