靜態基準測試非常重要,而@grok 4的性能無疑令人印象深刻。 我仍在等待人們對這個模型的看法,當它在他們手中時。它會達到預期嗎? 最終,這是關於為個別用戶提供真正的實用性。 Grok 4已經在我們@lmarena_ai的數百萬用戶手中。迫不及待想看看他們的第一步反應! 在我這邊,我試著問了一些困難的數學問題,而@grok似乎表現得很好。它簡潔且事實性強。看起來非常聰明,我喜歡與這個模型討論研究。 查看附圖中的可交換性相關證明!看起來沒有錯誤...
8.6K