Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Компании, создающие лучшие эталоны, будут расти быстрее, чем компании, создающие лучшие модели.
AI уже может решать задачи по шахматам, экзаменам и программированию, но все еще не может надежно забронировать столик на ужин.
Узкое место переместилось от интеллекта к оценке.

27 авг. 2025 г.
это один из лучших блогов 2025 года от исследователя OpenAI @ShunyuYao12.
"мы на полувремени AI,"
это руководство о том, что будет иметь наибольшее значение в исследованиях AI и стартап-экосистеме, и как к этому лучше подготовиться.
в течение десятилетий исследования AI сосредоточивались на алгоритмах и новых моделях, чтобы побить эталоны.
но что-то важное изменило правила игры: "RL наконец-то обобщается."
рабочий "рецепт": массовая предобучение языка (приоритеты) + масштаб + рассуждение как действие внутри цикла RL.
результат этого подъема по эталонам. игра меняется: от решения проблем к определению правильных проблем. оценка становится центральной.
основной эталон теперь - это "проблема полезности". эталоны не очень хорошо переводятся на реальные задачи.
поэтому это руководство второй половины: изобретите установки оценки, связанные с реальной полезностью; затем примените рецепт, чтобы победить по новым правилам.
в RL ключевое трио - это среда, алгоритмы и приоритеты. мы потратили так много времени на лучшие алгоритмы, но алгоритмы переобучаются на среде, в которой они рождаются.
для "второй половины" оценка = проектирование среды: создавайте установки, ближе к реальности (человек в цикле, не IID, последовательные/с памятью), чтобы обеспечить реальную полезность, а не просто победы по эталонам.

373
Топ
Рейтинг
Избранное