Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Acabo de fusionar un PR para un entorno para mejorar LLM como juez, así como evaluar los modelos en su capacidad para hacer juicios!
¿Sabías que todos los entornos de RL verificables son casi equivalentes a los puntos de referencia (¡y viceversa!)? Así que agregamos un comando de evaluación a la base de Atropos y ahora puede ejecutar pruebas comparativas a través de los entornos de Átropos.
Nos frustramos al trabajar con tantos marcos de referencia que estaban desactualizados o eran inutilizables, por lo que implementamos el modo de solo evaluación en Atropos, nuestro marco de entornos RL.
Así que nuestro primer port desde fuera de nuestros entornos existentes fue @natolambert's Reward-Bench!
Nota: por el momento, solo admite modelos de recompensa generativa (jueces regulares de LLM).
Echa un vistazo al PR aquí:

20.54K
Populares
Ranking
Favoritas