Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Чи досягла OpenAI дуже довгого епізоду RL з цією експериментальною моделлю? Скріншот зі статті @natolambert на тему "Що буде далі з навчанням з підкріпленням". У цій статті Натан каже: «Там, де поточні методи генерують 10K-100K токенів за відповідь для задач з математики або коду під час навчання, проблеми, які люди обговорюють, застосовуючи навчання RL наступного покоління, будуть 1M-100M токенів за відповідь. Це передбачає обгортання кількох викликів висновків, підказок і взаємодій із середовищем у межах одного епізоду, проти якого оновлено політику. Можливо, цей прорив є поєднанням обох - дуже довгого епізоду RL і масштабування TTC до 1M-100M токенів за відповідь!

8,5K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги