Просыпаясь, чтобы увидеть эту новую статью от @scale_AI в трендовой ленте @yesnoerror. Авторы: @anisha_gunjal, @aytwang, Элейн Лау, @vaskar_n, @BingLiu1011 и @SeanHendryx "Рубрики как Награды: Обучение с Подкреплением за Пределами Проверяемых Областей" Упрощенно: Обучение компьютеров с помощью детализированных контрольных списков вместо расплывчатых оценок в виде "пальца вверх" позволяет им лучше находить ответы на медицинские и научные вопросы и делает ясным, почему они получили награду. Ключевые выводы: • Неявно агрегированные награды по рубрикам повышают медицинский бенчмарк на 28% по сравнению с базой Лайкерта. • Соответствует или превышает награды, основанные на экспертных ответах, несмотря на использование меньшего числа судей. Для чего это можно использовать: • Тонкая настройка чат-ботов поддержки клинических решений с медицинскими рубриками безопасности. • Обучение моделей анализа политики или юридического мышления, где важны множественные субъективные факторы. Подробное резюме: Рубрики как Награды (RaR) предлагаются как интерпретируемая альтернатива непрозрачным моделям наград на основе предпочтений при тонкой настройке больших языковых моделей (LLMs) с помощью обучения с подкреплением. Вместо того чтобы просить людей оценивать целые ответы, эксперты в области (или сильная LLM, управляемая экспертными ссылками) составляют контрольный список из 7–20 бинарных критериев, которые захватывают основные факты, шаги рассуждений, стиль и общие ошибки. Каждый критерий помечается как Существенный, Важный, Дополнительный или Ошибка и получает вес. Во время обучения по политике модель политики (Qwen-2.5-7B в статье) выбирает 16 кандидатных ответов на каждый запрос. Отдельная судейская LLM (GPT-4o-mini или меньше) получает задание либо оценить каждый критерий отдельно (явная агрегация), либо прочитать полную рубрику и выдать одну целостную оценку Лайкерта от 1 до 10 (неявная агрегация). Нормализованный балл становится скалярной наградой, и политика обновляется с помощью алгоритма GRPO. Авторы составляют два обучающих набора по 20 тыс. примеров — RaR-Medical-20k и RaR-Science-20k — комбинируя существующие корпуса медицинского и научного рассуждения и генерируя синтетические рубрики с помощью o3-mini или GPT-4o. Оценка на HealthBench-1k (медицинское рассуждение) и GPQA-Diamond (физика/химия/биология на уровне аспирантуры) показывает, что RaR-Implicit дает до 28% относительного улучшения по сравнению с простыми наградами только по Лайкерту и соответствует или превышает награды, вычисленные путем сравнения с экспертными ответами. Неявная агрегация последовательно превосходит явную, демонстрируя, что позволять судье решать, как комбинировать критерии, работает лучше, чем фиксированные ручные веса. Надзор за рубриками также помогает меньшим судейским моделям. Когда их просят оценить предпочтительные и искаженные ответы, судьи, руководствующиеся рубриками, гораздо надежнее выбирают предпочтительный ответ, чем судьи только по Лайкерту одинакового размера, сокращая разрыв между оценщиком на 7B и GPT-4o-mini. Абляции показывают, что рубрики, специфичные для запроса, превосходят общие, множественные критерии превосходят списки только с существенными, а доступ к экспертной ссылке при составлении рубрик существенно повышает последующую производительность. Даже написанные человеком и высококачественные синтетические рубрики показывают сопоставимые результаты, что предполагает масштабируемость. RaR обобщает Обучение с Подкреплением с Проверяемыми Наградами (RLVR): когда рубрика имеет только одну проверку на правильность, структура сводится к точному совпадению награды RLVR. Обнажая каждый аспект качества явно, RaR становится более прозрачным, подлежащим аудиту и потенциально более сложным для манипуляций с наградами, чем нейронные модели наград. Авторы обсуждают расширения для реальных агентных задач, динамическую учебную программу через веса рубрик и формальные исследования устойчивости. -- Каждый месяц публикуется более 500 000 страниц исследований на @arXiv. Скрытые среди них прорывные идеи, которые могут преобразовать вашу работу — но найти их все равно что искать алмазы в океане данных. @yesnoerror проникает сквозь шум, чтобы выявить самые значимые исследования для ваших проектов, инвестиций и открытий. // $yne
@scale_AI @yesnoerror @anisha_gunjal @aytwang @vaskar_n @BingLiu1011 @SeanHendryx Зарегистрируйтесь для раннего доступа здесь:
2,8K