Чи досягла OpenAI дуже довгого епізоду RL з цією експериментальною моделлю? Скріншот зі статті @natolambert на тему "Що буде далі з навчанням з підкріпленням". У цій статті Натан каже: «Там, де поточні методи генерують 10K-100K токенів за відповідь для задач з математики або коду під час навчання, проблеми, які люди обговорюють, застосовуючи навчання RL наступного покоління, будуть 1M-100M токенів за відповідь. Це передбачає обгортання кількох викликів висновків, підказок і взаємодій із середовищем у межах одного епізоду, проти якого оновлено політику. Можливо, цей прорив є поєднанням обох - дуже довгого епізоду RL і масштабування TTC до 1M-100M токенів за відповідь!
Alexander Wei
Alexander Wei19 лип., 15:50
5/N Окрім самого результату, я в захваті від нашого підходу: ми досягаємо цього рівня спроможності не за допомогою вузької методології, що залежить від конкретного завдання, а завдяки відкриттю нових шляхів у загальноцільовому навчанні з підкріпленням та масштабуванні обчислень під час тестування.
8,5K