DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Acabei de fundir um PR para um ambiente para melhorar o LLM como juiz, bem como avaliar os modelos em sua capacidade de fazer julgamentos! Você sabia que todos os ambientes de RL verificáveis são quase equivalentes a benchmarks (e vice-versa!)? Por isso, adicionamos um comando evaluate à base do Átropos e agora você pode executar benchmarks em ambientes Átropos. Ficamos frustrados em trabalhar com tantos frameworks de benchmark que estavam desatualizados ou inutilizáveis, então implementamos o modo somente avaliação no Atropos, nosso framework de ambientes RL. Portanto, nossa primeira porta de fora de nossos ambientes existentes foi o Banco de Recompensas do @natolambert! Nota: ele suporta apenas modelos de recompensa generativa (LLM Judges regulares) no momento. Confira o PR aqui:

20,55K

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável