Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 je nyní venku!
Náš framework RL Environments prošel od verze 0.2 mnoha vylepšeními - některé přednosti:
- Atropos může být nyní použit jako rámec pro benchmarking a hodnocení společností @rogershijin, s naším prvním externím benchmarkem, Reward-Bench 2!
- Přidán Reasoning Gym, repo posilovny pro externí prostředí portované do atropos s více než 100 úlohami uvažování od @neurosp1ke a přátel
- @max_paperclips integrovaný bootcamp uvažování @intern_lm, který přidává 1000+ nových úkolů pro RL
- @dmayhem93 hlavní inženýr Atroposu přidal desítky oprav chyb a další vylepšení spolehlivosti a kompatibility, lepší podporu pro multi-environment a CI/CD
- Mnoho prostředí hackathonu Atropos bylo sloučeno do /environments/community - jejich seznam by zabral většinu místa na obrazovce, ale některé zajímavosti:
VR-CLI od @JakeABoggs, Filozofie RLAIF, Adaptivní učitelé LLM, WebVoyager, design proteinů od @hallerite, modelové směrovací prostředí od @gabinfay, více na štíhlé dokazování, catbot aréna, pokémon showdown, poker, užitečné doktory, sanskrtská poezie od @khoomeik a mnoho dalšího!
- Mezi další pozoruhodná oficiálně podporovaná nová prostředí patří:
Formát odpovědi podle prostředí
Prostředí Pydantic do JSON portované z @MatternJustus práce
Následující instrukce převzaté z práce @natolambert a @allen_ai
Počítání dopisů
- 47 zbrusu nových přispěvatelů!
Podívejte se na kompletní changelog zde:

18. 7. 03:22
Právě jsem sloučil PR pro prostředí pro zlepšení LLM jako soudce a také hodnocení modelů na jejich schopnosti dělat úsudky!
Věděli jste, že všechna ověřitelná prostředí RL jsou téměř ekvivalentní benchmarkům (a naopak!)? Proto jsme do základu Atroposu přidali příkaz evaluate a nyní můžete spouštět benchmarky v prostředích Atropos.
Byli jsme frustrovaní z práce s tolika benchmarkovými frameworky, které byly zastaralé nebo nepoužitelné, a tak jsme implementovali režim pouze pro vyhodnocení do Atroposu, našeho frameworku RL prostředí.
Takže náš první port mimo naše stávající prostředí byl @natolambert's Reward-Bench!
Poznámka: v současné době podporuje pouze modely generativních odměn (běžné porotce LLM).
Podívejte se na PR zde:

24,85K
Top
Hodnocení
Oblíbené