Компанії, які створюють кращі орієнтири, будуть рости швидше, ніж компанії, що будують кращі моделі Штучний інтелект вже може вирішувати шахи, іспити та змагання з кодування, але все ще не може надійно забронювати вечерю Вузьке місце перейшло від розвідки до оцінки
ℏεsam
ℏεsam27 серп. 2025 р.
Це одна з найкращих публікацій у блозі 2025 року від дослідника OpenAI @ShunyuYao12. «Ми на перерві ШІ», це посібник про те, що матиме найбільше значення в дослідженнях штучного інтелекту та екосистемі стартапів, і як найкраще до цього підготуватися. Протягом десятиліть дослідження штучного інтелекту зосереджувалися на алгоритмах і нових моделях, щоб побити контрольні показники. але дещо важливе змінило гру: "РЛ нарешті узагальнює". робочий «рецепт»: масове попереднє навчання мови (апріорні) + шкала + міркування як дія всередині циклу РЛ. Результатом цього еталонного сходження. Гра змінюється: від вирішення проблем до визначення правильних проблем. Оцінка стає центральним елементом. Основним орієнтиром зараз є «проблема комунальних послуг». Бенчмарки насправді погано перекладаються на реальні завдання. Отже, це сценарій другої половини: винаходьте оціночні установки, прив'язані до реальної корисності; Тоді застосуйте рецепт, щоб виграти за цими новими правилами. в RL ключовим тріо є оточення, алгоритми і апріорні. Ми витратили так багато часу на найкращі алгоритми, але вони пристосовуються до середовища, в якому вони народжуються. для "другої половини" оцінка = дизайн середовища: створюйте налаштування, ближчі до реальності (людина в циклі, без IID, послідовні/з пам'яттю), щоб досягти реальної корисності, а не лише перемог у бенчмарках.
376