トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
今日、私たち@OpenAIは、2025 年の IMO で、人間と同じ制限時間内で、ツールなしで、一般的な推論 LLM を使用して金メダルレベルのパフォーマンスを達成するという、多くの人が何年も先だと考えていたマイルストーンを達成しました。それは驚くべきことのように聞こえますが、見出し🧵よりもさらに重要です

7月19日 15:50
1/N 最新の@OpenAI実験的推論 LLM が、世界で最も権威のある数学コンテストである国際数学オリンピック (IMO) で金メダルレベルの成績という、AI における長年の壮大な課題を達成したことを共有できることを嬉しく思います。

通常、Go/Dota/Poker/Diplomacy のように、これらの AI の結果では、研究者は 1 つの狭い領域をマスターし、それ以外はほとんどしない AI を作成するのに何年も費やします。しかし、これはIMO固有のモデルではありません。これは、新しい実験的汎用手法を組み込んだ推論 LLM です。
では、何が違うのでしょうか?私たちは、検証が困難なタスクでLLMを大幅に向上させる新しい技術を開発しました。IMOの問題は、プルーフがページ長く、専門家が採点するのに何時間もかかるため、これに最適な課題でした。これを、答えが単に0から999までの整数であるAIMEと比較してください。
また、このモデルは*長い*時間考えます。o1は数秒考えた。数分間のディープリサーチ。これは何時間も考えます。重要なのは、思考もより効率的であることです。また、テスト時の計算と効率をさらに向上させる余地はたくさんあります。

2024年9月13日
@OpenAI @rao2z @OpenAIのo1は数秒で考えますが、将来のバージョンでは数時間、数日、さらには数週間を考えることを目指しています。推論コストは高くなりますが、新しい抗がん剤にはどのくらいの費用を支払いますか?画期的なバッテリーのために?リーマン仮説の証明のために?AIはチャットボット以上のものになる可能性があります

特に数学において、AI の進歩がどれほど速かったかを振り返る価値があります。2024年、AIラボはモデルリリースの評価として小学校の数学(GSM8K)を使用していました。それ以来、私たちは(高校の)MATHベンチマークを飽和させ、次にAIMEを飽和させ、そして今ではIMOゴールドを獲得しています。
これはどこへ行くのでしょうか?最近のAIの進歩が速いのと同じくらい、この傾向は今後も続くと私は十分に予想しています。重要なのは、AIが科学的発見に大きく貢献することに近づいていると思います。人間のパフォーマンスをわずかに下回るAIとわずかに上回るAIの間には大きな違いがあります。
これは@alexwei_が主導した小さなチームの取り組みでした。彼は、ほとんど信じられていない研究アイデアを取り入れ、それを使用して、より少ない考えで可能な結果を達成しました。これも、@OpenAIの多くの人やより広範な AI コミュニティによる長年の研究+エンジニアリングなしには不可能でした。
フロンティア ラボで働いていると、通常、フロンティアの能力がどこにあるかを誰よりも早く知っています。しかし、この結果は、最近開発された技術を使用したまったく新しいものです。OpenAIの多くの研究者にとっても驚きでした。今日、誰もがフロンティアがどこにあるのかを見ることができます。
857.22K
トップ
ランキング
お気に入り