Vậy là, tất cả các mô hình đều kém hơn con người trong các câu hỏi mới của Kỳ thi Toán học Quốc tế, và Grok-4 đặc biệt tệ trong đó, ngay cả với lựa chọn tốt nhất trong số n? Thật không thể tin được!
531,99K