Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Atropos v0.3 теперь доступен!
Наша структура RL Environments получила множество обновлений с версии v0.2 - некоторые основные моменты:
- Atropos теперь можно использовать в качестве фреймворка для бенчмаркинга и оценок от @rogershijin, с нашим первым внешним бенчмарком, Reward-Bench 2!
- Добавлен Reasoning Gym, внешний репозиторий среды, портированный в Atropos с более чем 100 задачами на рассуждение от @neurosp1ke и друзей.
- @max_paperclips интегрировал bootcamp по рассуждению от @intern_lm, добавив более 1000 новых задач на рассуждение для RL.
- @dmayhem93, главный инженер Atropos, добавил десятки исправлений ошибок и другие улучшения надежности и совместимости, лучшее поддержка для многосреды и CI/CD.
- Многие среды хакатона Atropos были объединены в /environments/community - перечислить их все заняло бы большую часть экрана, но некоторые основные моменты:
VR-CLI от @JakeABoggs, Philosophy RLAIF, Adaptive LLM Teachers, WebVoyager, проектирование белка от @hallerite, среда маршрутизации модели от @gabinfay, множественные доказательства на lean, арена котоботов, pokemon showdown, покер, полезные врачи, санскритская поэзия от @khoomeik и многое другое!
- Другие примечательные официально поддерживаемые новые среды включают:
Формат ответа, следующий среде
Pydantic в JSON, портированный из работы @MatternJustus
Следование инструкциям, портированное из работы @natolambert и @allen_ai
Подсчет букв
- 47 совершенно новых участников!
Посмотрите полный журнал изменений здесь:

18 июл., 03:22
Только что объединил PR для среды, чтобы улучшить LLM в качестве Судьи, а также оценить модели по их способности делать суждения!
Знали ли вы, что все проверяемые RL-среды почти эквивалентны бенчмаркам (и наоборот!)? Поэтому мы добавили команду evaluate в базу Atropos, и теперь вы можете запускать бенчмарки через среды Atropos.
Мы были разочарованы работой с таким количеством устаревших или непригодных бенчмарк-фреймворков, поэтому мы реализовали режим только для оценки в Atropos, нашем фреймворке RL-сред.
Таким образом, нашим первым портом из внешних сред стал Reward-Bench от @natolambert!
Примечание: в данный момент он поддерживает только генеративные модели вознаграждений (обычные LLM Судьи).
Посмотрите PR здесь:

24,87K
Топ
Рейтинг
Избранное