不僅僅是銅牌:評估大型語言模型在2025年國際數學奧林匹克的表現 🥉 來自MathArena團隊的精彩部落格文章:在未受污染的數學競賽中評估大型語言模型(),提供了對大型語言模型在國際數學奧林匹克表現的獨立分析。
這看起來像是Gemini的進階版本,Deep Think剛剛解決了6個IMO問題中的5個,總共獲得35分,並正式達到了金牌級別的表現。 恭喜@lmthang❗️ 迫不及待想要玩這個模型
42.46K