Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Достигла ли OpenAI очень-долгого-эпизода RL с этой экспериментальной моделью? Скриншот из статьи @natolambert о "Чем дальше будет развитие обучения с подкреплением". Натан говорит в этой статье - где текущие методы генерируют 10K-100K токенов за ответ на математические или кодовые задачи во время обучения, те задачи, о которых люди обсуждают применение обучения с подкреплением следующего поколения, будут содержать 1M-100M токенов за ответ. Это включает в себя оборачивание нескольких вызовов вывода, подсказок и взаимодействий с окружением в одном эпизоде, против которого обновляется политика. Возможно, этот прорыв является комбинацией обоих - очень-долгого-эпизода RL и масштабирования TTC до 1M-100M токенов за ответ!

8,88K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные