Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Щойно об'єднав PR для середовища для покращення LLM як судді, а також оцінки моделей щодо їх здатності робити судження!
Чи знаєте ви, що всі перевірені середовища RL майже еквівалентні бенчмаркам (і навпаки!)? Тому ми додали команду evaluate на базу Atropos і тепер ви можете запускати бенчмарки через середовища Atropos.
Нам було розчаровано працювати з такою кількістю тестових фреймворків, які були застарілими або непридатними для використання, тому ми впровадили режим лише оцінки в Atropos, наш фреймворк RL-середовищ.
Отже, нашим першим портом з-за меж нашого існуючого середовища став @natolambert's Reward-Bench!
Примітка: на даний момент він підтримує лише генеративні моделі винагороди (звичайні судді LLM).
Ознайомитися з PR можна тут:

20,54K
Найкращі
Рейтинг
Вибране