Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Чи досягла OpenAI дуже довгого епізоду RL з цією експериментальною моделлю?
Скріншот зі статті @natolambert на тему "Що буде далі з навчанням з підкріпленням".
У цій статті Натан каже: «Там, де поточні методи генерують 10K-100K токенів за відповідь для задач з математики або коду під час навчання, проблеми, які люди обговорюють, застосовуючи навчання RL наступного покоління, будуть 1M-100M токенів за відповідь. Це передбачає обгортання кількох викликів висновків, підказок і взаємодій із середовищем у межах одного епізоду, проти якого оновлено політику.
Можливо, цей прорив є поєднанням обох - дуже довгого епізоду RL і масштабування TTC до 1M-100M токенів за відповідь!


19 лип., 15:50
5/N Окрім самого результату, я в захваті від нашого підходу: ми досягаємо цього рівня спроможності не за допомогою вузької методології, що залежить від конкретного завдання, а завдяки відкриттю нових шляхів у загальноцільовому навчанні з підкріпленням та масштабуванні обчислень під час тестування.
8,5K
Найкращі
Рейтинг
Вибране