Компании, создающие лучшие эталоны, будут расти быстрее, чем компании, создающие лучшие модели. AI уже может решать задачи по шахматам, экзаменам и программированию, но все еще не может надежно забронировать столик на ужин. Узкое место переместилось от интеллекта к оценке.
ℏεsam
ℏεsam27 авг. 2025 г.
это один из лучших блогов 2025 года от исследователя OpenAI @ShunyuYao12. "мы на полувремени AI," это руководство о том, что будет иметь наибольшее значение в исследованиях AI и стартап-экосистеме, и как к этому лучше подготовиться. в течение десятилетий исследования AI сосредоточивались на алгоритмах и новых моделях, чтобы побить эталоны. но что-то важное изменило правила игры: "RL наконец-то обобщается." рабочий "рецепт": массовая предобучение языка (приоритеты) + масштаб + рассуждение как действие внутри цикла RL. результат этого подъема по эталонам. игра меняется: от решения проблем к определению правильных проблем. оценка становится центральной. основной эталон теперь - это "проблема полезности". эталоны не очень хорошо переводятся на реальные задачи. поэтому это руководство второй половины: изобретите установки оценки, связанные с реальной полезностью; затем примените рецепт, чтобы победить по новым правилам. в RL ключевое трио - это среда, алгоритмы и приоритеты. мы потратили так много времени на лучшие алгоритмы, но алгоритмы переобучаются на среде, в которой они рождаются. для "второй половины" оценка = проектирование среды: создавайте установки, ближе к реальности (человек в цикле, не IID, последовательные/с памятью), чтобы обеспечить реальную полезность, а не просто победы по эталонам.
373