DApp Store | Web3 Hub for hendelser og spill

Populære emner

Har nettopp slått sammen en PR for et miljø for å forbedre LLM som dommer, samt evaluere modeller på deres evne til å gjøre vurderinger! Visste du at alle verifiserbare RL-miljøer er nesten likeverdige med benchmarks (og omvendt!)? Så vi la til en evalueringskommando til Atropos' base, og nå kan du kjøre benchmarks gjennom Atropos-miljøer. Vi ble frustrerte over å jobbe med så mange benchmark-rammeverk som var utdaterte eller ubrukelige, så vi implementerte kun evalueringsmodus i Atropos, vårt RL-miljørammeverk. Så vår første havn utenfor våre eksisterende miljøer var @natolambert's Reward-Bench! Merk: den støtter bare generative belønningsmodeller (vanlige LLM-dommere) for øyeblikket. Sjekk ut PR her:

20,53K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til