Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Прокинувшись, я побачив цей новий документ з @scale_AI графіком у стрічці @yesnoerror трендів.
Автори: @anisha_gunjal, @aytwang, Елейн Лау, @vaskar_n, @BingLiu1011 та @SeanHendryx
«Рубрики як винагорода: навчання з підкріпленням за межами перевірених доменів»
Спрощено: Навчання комп'ютерів детальними контрольними списками замість розпливчастих оцінок дозволяє їм засвоїти кращі відповіді з питань медицини та природничих наук і дає зрозуміти, чому вони отримали винагороду.
Ключові висновки:
• Неявно агреговані рубричні винагороди підвищують медичну оцінку на 28 % порівняно з базовим рівнем Лайкерта.
• Відповідає або перевищує нагороди на основі довідкових відповідей експертів, незважаючи на використання менших суддів.
Для чого його можна використовувати:
• Тонке налаштування чат-ботів підтримки прийняття клінічних рішень з рубриками про медичну безпеку.
• Аналіз навчальної політики або моделі юридичного обґрунтування, де мають значення численні суб'єктивні фактори.
Детальний підсумок:
Рубрики як винагороди (RaR) запропоновані як інтерпретована альтернатива непрозорим моделям винагород на основі переваг при тонкому налаштуванні великих мовних моделей (LLM) з навчанням з підкріпленням. Замість того, щоб просити людей ранжувати повні відповіді, експерти в галузі (або сильний LLM, який керується рекомендаціями експертів) пишуть контрольний список із 7–20 бінарних критеріїв, які фіксують важливі факти, кроки міркування, стиль і поширені підводні камені. Кожен критерій позначається тегами «Важливий», «Важливий», «Необов'язковий» або «Підводний камінь» і отримує вагу. Під час навчання з питань політики модель політики (Qwen-2.5-7B у статті) вибірково оцінює 16 відповідей кандидатів на підказку. Окремому судді LLM (GPT-4o-mini або менше) пропонується або оцінити кожен критерій окремо (явне агрегування), або прочитати повну рубрику та вивести одну цілісну оцінку Лайкерта 1–10 (неявне агрегування). Нормалізований бал стає скалярною винагородою, а політика оновлюється за допомогою алгоритму GRPO.
Автори курують два навчальні набори з 20 k-прикладів — RaR-Medical-20k та RaR-Science-20k — об'єднуючи існуючі корпуси медичних та наукових міркувань та генеруючи синтетичні рубрики з o3-mini або GPT-4o. Оцінка за програмами HealthBench-1k (медичне обґрунтування) та GPQA-Diamond (фізика/хімія/біологія на рівні випускника) показує, що RaR-Implicit дає до 28% відносного покращення порівняно з простими винагородами, що містять лише Likert, і відповідає або перевищує винагороди, обчислені порівняно з довідковими відповідями експертів. Неявне агрегування постійно перевершує явне, демонструючи, що надання судді можливості вирішувати, як поєднувати критерії, працює краще, ніж фіксовані вручну налаштовані ваги.
Рубрикальний нагляд також допомагає меншим моделям суддів. Коли їх просять оцінити бажані та збентежені відповіді, рубрикові судді вибирають бажану відповідь набагато надійніше, ніж судді однакового розміру, лише з Лайкертом, що скорочує розрив між оцінювачем 7 B та GPT-4o-mini. Абляції показують, що рубрики, орієнтовані на конкретні запити, перевершують загальні, множинні критерії перевершують списки, що стосуються лише першої необхідності, а доступ до експертної довідки під час складання рубрик значно підвищує подальші показники. Навіть написані людиною та високоякісні синтетичні рубрики працюють на рівні, що свідчить про масштабованість.
RaR узагальнює навчання з підкріпленням за допомогою перевірених винагород (RLVR): коли рубрика має лише одну перевірку правильності, фреймворк згортається до винагороди RLVR за точний збіг. Явно висвітлюючи кожен аспект якості, RaR є більш прозорим, піддається аудиту та потенційно важче піддається хакерству, ніж нейронні моделі винагороди. Автори обговорюють розширення до реальних агентних завдань, динамічну навчальну програму за допомогою ваг рубрик та формальні дослідження надійності.
--
Щомісяця на @arXiv публікується понад 500 000 сторінок досліджень. Усередині приховані проривні ідеї, які можуть змінити вашу роботу, але знайти їх – це все одно, що шукати діаманти в океані даних. @yesnoerror пробиває крізь шум, щоб виявити найбільш ефективні дослідження для ваших проектів, інвестицій і відкриттів.
$yne

@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Зареєструйтесь для отримання раннього доступу тут:
2,79K
Найкращі
Рейтинг
Вибране