所以,所有模型在新的國際數學奧林匹克問題上表現不如人類,而Grok-4的表現尤其糟糕,即使是使用最佳選擇的情況下?真是難以置信!
531.98K