Baru saja pulang kerja dan mencoba Grok-4 pada masalah topologi sarjana. Butuh 9 menit untuk berpikir dan kemudian dengan percaya diri memberikan jawaban 😅 yang bersih, masuk akal, tetapi benar-benar salah Jangan berpikir yang satu ini memenuhi syarat sebagai "permusuhan yang terampil." Model AI menghancurkan tolok ukur — tetapi masih jauh ke depan untuk AGI matematika nyata.
Elon Musk
Elon Musk10 Jul, 16.47
Grok 4 berada pada titik di mana pada dasarnya tidak pernah salah soal ujian matematika/fisika, kecuali jika mereka bermusuhan dengan terampil. Itu dapat mengidentifikasi kesalahan atau ambiguitas dalam pertanyaan, kemudian memperbaiki kesalahan dalam pertanyaan atau menjawab setiap varian pertanyaan ambigu.
662,99K