トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI 対 DeepMind IMO の物語ではどんでん返しが起こるかもしれません。
ジョセフ・マイヤーズ(1992年から数学オリンピックに携わっている)の投稿を見たところによると、IMO委員会はAIラボに対し、閉会式の7日後まで結果を公表しないよう要請したと伝えられている。
ジョセフ氏によると、OpenAIはIMOと協力してモデルをテストしておらず、91人の公式IMOコーディネーターの誰もソリューションのグレーディングに関与していなかったという。一方、DeepMind はルールに従い、辛抱強く順番を待っているようです。
コンテキスト:
IMOには6つの問題があり、それぞれ7ポイントの価値があります。今年の金のカットオフは35ポイントです。たとえわずかな控除でも、OpenAIは銀に転落する可能性があります。そして、彼らの記事を読んだところによると、いくつかの部分は疑問を引き起こし、場合によってはポイントを犠牲にする可能性があります。
テレンス・タオ氏はまた、問題は変わりませんが、テスト形式が重要であると指摘しました。標準的な条件下では銅メダルを獲得できなかった学生が、変更されたセットアップで金メダルを獲得する可能性があり、これはAIにとって「IMOを解決する」ことが何を意味するのかについての本当の疑問を引き起こします。
来週は辛くなるかもしれません。乞うご期待。



7月20日 03:15
DeepMind は金曜日の午後、IMO で金メダルを獲得しました。しかし、彼らはマーケティング部門がツイートを承認するまで、月曜日まで待たなければならなかった。
@OpenAI土曜日の午前1時に最初に彼らのものを共有し、スポットライトを浴びました。
このゲームでは、スピード>官僚主義。その瞬間を逃し、物語を失います。
@swierk 彼らは、3人の元IMOメダリストがIMOの公式コーディネーターではないことを発見しました:「各問題について、3人の元IMOメダリストがモデルが提出した証明を独立して採点し、全会一致のコンセンサス後にスコアが最終決定されました。」

7月19日 15:50
6/N 私たちの評価では、このモデルは 2025 年の IMO の 6 つの問題のうち 5 つを解決しました。各問題について、3人の元IMOメダリストがモデルが提出した証明を独立して採点し、全会一致の合意の後にスコアが最終決定されました。このモデルは合計で 35/42 ポイントを獲得し、ゴールドに十分なポイントを獲得しました。🥇
IMO委員会の質問に関する私の以前の投稿

7月20日 05:42
説明: Google の誰かから、IMO の結果はまだ社内で検証中であると聞きました。それが終わったら、彼らはそれらを公式に共有する予定で、彼らのアプローチに興味を持っています。
別の情報筋は、IMO委員会が閉会式後1週間以内にAIの関与について公に議論しないよう求めたと述べた。物事はもう少し面白🧐くなりました
超人的な推論チーム@GoogleDeepMindリーダー@lmthang、OpenAIが金メダルと銀メダルのどちらを獲得するかについても疑問を提起した

7月20日 05:42
説明: Google の誰かから、IMO の結果はまだ社内で検証中であると聞きました。それが終わったら、彼らはそれらを公式に共有する予定で、彼らのアプローチに興味を持っています。
別の情報筋は、IMO委員会が閉会式後1週間以内にAIの関与について公に議論しないよう求めたと述べた。物事はもう少し面白🧐くなりました
AlphaGeometry を構築した超人的な推論チームのリーダー@GoogleDeepMind@lmthangも、OpenAI が金メダルを獲得するか銀メダルを獲得するかについて疑問を提起しました

22時間前
はい、IMO主催者からの公式のマーキングガイドラインがありますが、外部では利用できません。そのガイドラインに基づく評価がなければ、メダルの主張はできません。1点差し引かれるとゴールドではなくシルバーだ。
@swierkはい、数学や AI の人々から寄せられる質問がますます増えています

19時間前
AlphaGeometry を構築した超人的な推論チームのリーダー@GoogleDeepMind@lmthangも、OpenAI が金メダルを獲得するか銀メダルを獲得するかについて疑問を提起しました
87.38K
トップ
ランキング
お気に入り