静态基准测试非常重要,而@grok 4的性能无疑令人印象深刻。 我仍在等待人们对这个模型的看法,当它在他们手中时。它会达到预期吗? 归根结底,这关乎于为个别用户提供真正的实用性。 Grok 4已经在我们@lmarena_ai的数百万用户手中。迫不及待想看看他们的第一步想法! 就我而言,我尝试问了一些难度较大的数学问题,@grok似乎表现得很好。它简洁而真实。看起来非常聪明,我喜欢与这个模型讨论研究。 查看附图中的可交换性相关证明!看起来没有错误...
8.63K