より良いベンチマークを構築する企業は、より良いモデルを構築する企業よりも速く成長するでしょう AI はすでにチェス、試験、コーディング コンテストを解決できますが、それでもディナーの予約を確実に予約することはできません ボトルネックはインテリジェンスから評価に移った
ℏεsam
ℏεsam2025年8月27日
これは、OpenAI の研究者 @ShunyuYao12 による 2025 年の最高のブログ投稿の 1 つです。 「AIのハーフタイムに来ました」 これは、AI 研究とスタートアップ エコシステムにおいて何が最も重要なのか、そしてそれに向けて最善の準備をする方法についてのプレイブックです。 何十年もの間、AI 研究はベンチマークを打ち負かすためのアルゴリズムと新しいモデルに焦点を当ててきました。 しかし、重要なことがゲームを変えました:「RLはついに一般化します」。 動作する「レシピ」: RL ループ内の大規模な言語事前トレーニング (事前) + スケール + アクションとしての推論。 このベンチマーク上昇の結果。ゲームは、問題の解決から正しい問題の定義へと変化します。評価が中心的な舞台になります。 今の核となるベンチマークは「ユーティリティ問題」です。ベンチマークは、実際のタスクにはうまく変換されません。 これが後半のプレイブックです: 実際の有用性に結びついた評価セットアップを発明します。次に、レシピを適用して、新しいルールの下で勝ちます。 RLでは、主要なトリオは環境、アルゴリズム、事前確率です。私たちは最高のアルゴに多くの時間を費やしてきましたが、アルゴは生まれた環境に過剰適合しています。 「後半」では、評価 = 環境設計: 現実に近いセットアップ (ヒューマン イン ザ ループ、非 IID、シーケンシャル/メモリ付き) を構築して、ベンチマークの勝利だけでなく、実際の実用性を促進します。
365