Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 вже вийшов!
Наш фреймворк RL Environments зазнав багато оновлень, починаючи з версії 0.2 - деякі основні моменти:
- Atropos тепер може використовуватися як фреймворк для порівняльного аналізу та оцінок @rogershijin з нашим першим зовнішнім бенчмарком Reward-Bench 2!
- Додано Reasoning Gym, репозиторій для тренажерного залу зовнішнього середовища, портований на atropos з більш ніж 100 завданнями на міркування від @neurosp1ke та друзів
- @max_paperclips інтегрований буткемп міркувань @intern_lm, додавши 1000+ нових завдань на міркування для RL
- @dmayhem93 провідний інженер Atropos додав десятки виправлень помилок та інших покращень надійності та сумісності, кращу підтримку мультиоточення та CI/CD
- Багато середовищ хакатону Atropos були об'єднані в /environments/community - перерахування їх усіх зайняло б більшу частину екранного простору, але деякі особливості:
VR-CLI від @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, білковий дизайн від @hallerite, модельне середовище маршрутизації від @gabinfay, множинне на lean proving, The Catbot Arena, Pokemon Showdown, покер, корисні лікарі, санскритська поезія від @khoomeik та багато іншого!
- Інші помітні офіційно підтримувані нові середовища включають:
Формат відповідей за оточенням
Середовище Pydantic на JSON портовано з @MatternJustus роботи
Інструкція Наступне перенесено з @natolambert та роботи @allen_ai
Підрахунок букв
- 47 нових дописувачів!
Ознайомтеся з повним журналом змін тут:

18 лип., 03:22
Щойно об'єднав PR для середовища для покращення LLM як судді, а також оцінки моделей щодо їх здатності робити судження!
Чи знаєте ви, що всі перевірені середовища RL майже еквівалентні бенчмаркам (і навпаки!)? Тому ми додали команду evaluate на базу Atropos і тепер ви можете запускати бенчмарки через середовища Atropos.
Нам було розчаровано працювати з такою кількістю тестових фреймворків, які були застарілими або непридатними для використання, тому ми впровадили режим лише оцінки в Atropos, наш фреймворк RL-середовищ.
Отже, нашим першим портом з-за меж нашого існуючого середовища став @natolambert's Reward-Bench!
Примітка: на даний момент він підтримує лише генеративні моделі винагороди (звичайні судді LLM).
Ознайомитися з PR можна тут:

24,86K
Найкращі
Рейтинг
Вибране