Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Har precis slagit ihop en PR för en miljö för att förbättra LLM som domare samt utvärdera modeller på deras förmåga att göra domar!
Visste du att alla verifierbara RL-miljöer är nästan likvärdiga med riktmärken (och vice versa!)? Så vi lade till ett evaluate-kommando till Atropos bas och nu kan du köra benchmarks genom Atropos-miljöer.
Vi blev frustrerade över att arbeta med så många benchmark-ramverk som var föråldrade eller oanvändbara, så vi implementerade endast utvärdering-läge i Atropos, vårt ramverk för RL-miljöer.
Så vår första port utanför våra befintliga miljöer var @natolambert's Reward-Bench!
Obs: den stöder endast generativa belöningsmodeller (vanliga LLM-domare) för tillfället.
Kolla in PR här:

20,56K
Topp
Rankning
Favoriter