🧠 Grok 4 by @xai membuat langkah dalam tolok ukur penalaran, tetapi gambarannya lebih bernuansa daripada yang disarankan oleh skor. Inilah penumpukannya — dan apa yang benar-benar dapat kita pelajari dari hasilnya 🧵 📊 Evaluasi penuh: 1️⃣ Grok 4 skor: • Tantangan Penalaran AI2 (Mudah): 98% • AIME 2025 (Matematika): 89% • Audit Akuntansi: 84% • MMLU-Plus: 64% • Data4Health: 55% Ini adalah skor teratas — tetapi mari kita perbesar apa yang berhasil dan apa yang masih gagal. 2️⃣ AIME 2025 ✅ Menangani aljabar, geometri, teori bilangan ✅ Mengikuti aturan pemformatan LaTeX ❌ Berjuang dengan logika multi-langkah ❌ Kesalahan dalam kombinatorika ❌ Masalah presisi format (misalnya hilang °) 3️⃣ Audit Akuntansi ✅ Kuat dalam etika & pelaporan ✅ Pemahaman yang kuat tentang prinsip-prinsip audit ❌ Salah menafsirkan prosedur serupa ❌ Gagal menemukan perbedaan jawaban halus ❌ Kesulitan menerapkan teori ke kasus dunia nyata 4️⃣ Wawasan yang sebenarnya? Bahkan model dengan 98% pada beberapa tugas dapat gagal keras di bawah ambiguitas atau tekanan pemformatan. Tolok ukur seperti AIME dan Audit menunjukkan bagaimana kegagalannya, bukan hanya seberapa banyak skornya. 5️⃣ Mengapa ini penting: Kami membutuhkan evaluasi per tugas yang transparan — bukan hanya papan peringkat. #Grok4 kuat, tetapi masih rapuh di domain dunia nyata berisiko tinggi. 🧪 Jelajahi rincian lengkapnya: #AI #LLMs #Benchmarking
1,06K