Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

¡Acabo de fusionar un PR para un entorno para mejorar LLM como juez, así como evaluar los modelos en su capacidad para hacer juicios! ¿Sabías que todos los entornos de RL verificables son casi equivalentes a los puntos de referencia (¡y viceversa!)? Así que agregamos un comando de evaluación a la base de Atropos y ahora puede ejecutar pruebas comparativas a través de los entornos de Átropos. Nos frustramos al trabajar con tantos marcos de referencia que estaban desactualizados o eran inutilizables, por lo que implementamos el modo de solo evaluación en Atropos, nuestro marco de entornos RL. Así que nuestro primer port desde fuera de nuestros entornos existentes fue @natolambert's Reward-Bench! Nota: por el momento, solo admite modelos de recompensa generativa (jueces regulares de LLM). Echa un vistazo al PR aquí:

20.54K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas