Har precis slagit ihop en PR för en miljö för att förbättra LLM som domare samt utvärdera modeller på deras förmåga att göra domar! Visste du att alla verifierbara RL-miljöer är nästan likvärdiga med riktmärken (och vice versa!)? Så vi lade till ett evaluate-kommando till Atropos bas och nu kan du köra benchmarks genom Atropos-miljöer. Vi blev frustrerade över att arbeta med så många benchmark-ramverk som var föråldrade eller oanvändbara, så vi implementerade endast utvärdering-läge i Atropos, vårt ramverk för RL-miljöer. Så vår första port utanför våra befintliga miljöer var @natolambert's Reward-Bench! Obs: den stöder endast generativa belöningsmodeller (vanliga LLM-domare) för tillfället. Kolla in PR här:
20,56K