DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

¡Acabamos de fusionar un PR para un entorno que mejora LLM como Juez y evalúa modelos en su capacidad para hacer juicios! ¿Sabías que todos los entornos RL verificables son casi equivalentes a los benchmarks (y viceversa!)? Así que añadimos un comando de evaluación a la base de Atropos y ahora puedes ejecutar benchmarks a través de los entornos de Atropos. Nos frustramos al trabajar con tantos marcos de benchmark que estaban desactualizados o eran inutilizables, así que implementamos un modo solo de evaluación en Atropos, nuestro marco de entornos RL. Así que nuestro primer puerto desde fuera de nuestros entornos existentes fue el Reward-Bench de @natolambert! Nota: solo admite modelos de recompensa generativa (Jueces LLM regulares) en este momento. Consulta el PR aquí:

20,54K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado