Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Компанії, які створюють кращі орієнтири, будуть рости швидше, ніж компанії, що будують кращі моделі
Штучний інтелект вже може вирішувати шахи, іспити та змагання з кодування, але все ще не може надійно забронювати вечерю
Вузьке місце перейшло від розвідки до оцінки

27 серп. 2025 р.
Це одна з найкращих публікацій у блозі 2025 року від дослідника OpenAI @ShunyuYao12.
«Ми на перерві ШІ»,
це посібник про те, що матиме найбільше значення в дослідженнях штучного інтелекту та екосистемі стартапів, і як найкраще до цього підготуватися.
Протягом десятиліть дослідження штучного інтелекту зосереджувалися на алгоритмах і нових моделях, щоб побити контрольні показники.
але дещо важливе змінило гру: "РЛ нарешті узагальнює".
робочий «рецепт»: масове попереднє навчання мови (апріорні) + шкала + міркування як дія всередині циклу РЛ.
Результатом цього еталонного сходження. Гра змінюється: від вирішення проблем до визначення правильних проблем. Оцінка стає центральним елементом.
Основним орієнтиром зараз є «проблема комунальних послуг». Бенчмарки насправді погано перекладаються на реальні завдання.
Отже, це сценарій другої половини: винаходьте оціночні установки, прив'язані до реальної корисності; Тоді застосуйте рецепт, щоб виграти за цими новими правилами.
в RL ключовим тріо є оточення, алгоритми і апріорні. Ми витратили так багато часу на найкращі алгоритми, але вони пристосовуються до середовища, в якому вони народжуються.
для "другої половини" оцінка = дизайн середовища: створюйте налаштування, ближчі до реальності (людина в циклі, без IID, послідовні/з пам'яттю), щоб досягти реальної корисності, а не лише перемог у бенчмарках.

376
Найкращі
Рейтинг
Вибране