Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Достигла ли OpenAI очень-долгого-эпизода RL с этой экспериментальной моделью?
Скриншот из статьи @natolambert о "Чем дальше будет развитие обучения с подкреплением".
Натан говорит в этой статье - где текущие методы генерируют 10K-100K токенов за ответ на математические или кодовые задачи во время обучения, те задачи, о которых люди обсуждают применение обучения с подкреплением следующего поколения, будут содержать 1M-100M токенов за ответ. Это включает в себя оборачивание нескольких вызовов вывода, подсказок и взаимодействий с окружением в одном эпизоде, против которого обновляется политика.
Возможно, этот прорыв является комбинацией обоих - очень-долгого-эпизода RL и масштабирования TTC до 1M-100M токенов за ответ!


19 июл., 15:50
5/N Кроме самого результата, я взволнован нашим подходом: мы достигаем этого уровня возможностей не через узкую, специфическую для задач методологию, а прокладывая новый путь в общем-purpose обучении с подкреплением и масштабировании вычислений во время тестирования.
8,88K
Топ
Рейтинг
Избранное