🚨GROKはツールなしで「人類最後の試験」で26.9%のスコアを獲得 スケーリンググラフは、より多くのコンピューティング=パフォーマンスの向上というストーリーを物語っています。 Grokは、純粋な推論だけで、世界で最も難しい学術ベンチマークの4分の1以上を粉砕しました。 電卓も外部の助けもありません。 AIの頭脳が、人間の知識のあらゆる分野で2,500の質問に取り組んでいるだけです。 ほとんどの人間は、ツールを使用してもこのテストに失敗します。 Grokは目隠しをしてやっています。 ソース: @xai @elonmusk
Mario Nawfal
Mario Nawfal7月10日 12:14
🚨"HUMANITY'S LAST EXAM" DROPPED: 2,500 QUESTIONS TO SEPARATE REAL AI FROM PRETENDERS X just unveiled the ultimate academic gauntlet - a benchmark so comprehensive it's meant to be the final test ever needed. Math dominates at 41%, followed by sciences and humanities. The name says it all: this is the exam to end all exams. Once AI aces this, what's left to prove? We're building the test that determines when machines officially outsmart us. Source: @xai @elonmusk
89.57K