Grok 4 berada pada titik di mana pada dasarnya tidak pernah salah soal ujian matematika/fisika, kecuali jika mereka bermusuhan dengan terampil. Itu dapat mengidentifikasi kesalahan atau ambiguitas dalam pertanyaan, kemudian memperbaiki kesalahan dalam pertanyaan atau menjawab setiap varian pertanyaan ambigu.
Deedy
Deedy10 Jul, 14.07
Gila bahwa Elon Musk telah melakukannya lagi, benar-benar menghancurkan perang AI dengan Grok 4. Merangkum pengumuman inti: — Pengeluaran RL pasca-pelatihan == pengeluaran prapelatihan — $3/M input diberitahukan, $15/M output toks, konteks 256k, harga 2x di luar 128k — #1 pada Ujian Terakhir Kemanusiaan (masalah sulit umum) 44.4%, #2 adalah 26.9% — #1 pada GPQA (masalah lulusan yang sulit) 88,9%. #2 adalah 86.4% — #1 di AIME 2025 (Matematika) 100%, #2 adalah 98.4% — #1 di Harvard MIT Math 96.7%, #2 adalah 82.5% — #1 pada USAMO25 (Matematika) 61.9%, #2 adalah 49.4% — #1 pada ARC-AGI-2 (mudah untuk manusia, sulit untuk AI) 15.9%, #2 adalah 8.6% — #1 di LiveCodeBench (Jan-Mei) 79.4%, #2 adalah 75.8% Grok 4 "berpotensi lebih baik daripada tingkat PhD di setiap mata pelajaran tidak terkecuali". dan itu cukup murah. Momen besar dalam perang AI dan Elon telah datang untuk bermain.
6,33M