Щойно об'єднав PR для середовища для покращення LLM як судді, а також оцінки моделей щодо їх здатності робити судження! Чи знаєте ви, що всі перевірені середовища RL майже еквівалентні бенчмаркам (і навпаки!)? Тому ми додали команду evaluate на базу Atropos і тепер ви можете запускати бенчмарки через середовища Atropos. Нам було розчаровано працювати з такою кількістю тестових фреймворків, які були застарілими або непридатними для використання, тому ми впровадили режим лише оцінки в Atropos, наш фреймворк RL-середовищ. Отже, нашим першим портом з-за меж нашого існуючого середовища став @natolambert's Reward-Bench! Примітка: на даний момент він підтримує лише генеративні моделі винагороди (звичайні судді LLM). Ознайомитися з PR можна тут:
20,54K