Atropos v0.3 вже вийшов! Наш фреймворк RL Environments зазнав багато оновлень, починаючи з версії 0.2 - деякі основні моменти: - Atropos тепер може використовуватися як фреймворк для порівняльного аналізу та оцінок @rogershijin з нашим першим зовнішнім бенчмарком Reward-Bench 2! - Додано Reasoning Gym, репозиторій для тренажерного залу зовнішнього середовища, портований на atropos з більш ніж 100 завданнями на міркування від @neurosp1ke та друзів - @max_paperclips інтегрований буткемп міркувань @intern_lm, додавши 1000+ нових завдань на міркування для RL - @dmayhem93 провідний інженер Atropos додав десятки виправлень помилок та інших покращень надійності та сумісності, кращу підтримку мультиоточення та CI/CD - Багато середовищ хакатону Atropos були об'єднані в /environments/community - перерахування їх усіх зайняло б більшу частину екранного простору, але деякі особливості: VR-CLI від @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, білковий дизайн від @hallerite, модельне середовище маршрутизації від @gabinfay, множинне на lean proving, The Catbot Arena, Pokemon Showdown, покер, корисні лікарі, санскритська поезія від @khoomeik та багато іншого! - Інші помітні офіційно підтримувані нові середовища включають: Формат відповідей за оточенням Середовище Pydantic на JSON портовано з @MatternJustus роботи Інструкція Наступне перенесено з @natolambert та роботи @allen_ai Підрахунок букв - 47 нових дописувачів! Ознайомтеся з повним журналом змін тут:
Teknium (e/λ)
Teknium (e/λ)18 лип., 03:22
Щойно об'єднав PR для середовища для покращення LLM як судді, а також оцінки моделей щодо їх здатності робити судження! Чи знаєте ви, що всі перевірені середовища RL майже еквівалентні бенчмаркам (і навпаки!)? Тому ми додали команду evaluate на базу Atropos і тепер ви можете запускати бенчмарки через середовища Atropos. Нам було розчаровано працювати з такою кількістю тестових фреймворків, які були застарілими або непридатними для використання, тому ми впровадили режим лише оцінки в Atropos, наш фреймворк RL-середовищ. Отже, нашим першим портом з-за меж нашого існуючого середовища став @natolambert's Reward-Bench! Примітка: на даний момент він підтримує лише генеративні моделі винагороди (звичайні судді LLM). Ознайомитися з PR можна тут:
24,86K