剛下班,嘗試在一個本科生的拓撲問題上使用Grok-4。它花了9分鐘思考,然後自信地給出了一個乾淨、合理,但完全錯誤的答案😅 我不認為這個算是「技術上對抗性強」。AI模型正在壓倒基準——但在真正的數學AGI方面仍然有很長的路要走。
Elon Musk
Elon Musk7月10日 16:47
Grok 4 現在幾乎不會在數學/物理考試問題上出錯,除非這些問題是巧妙的對抗性問題。 它可以識別問題中的錯誤或模糊之處,然後修正問題中的錯誤或回答每個模糊問題的變體。
662.99K