Inte ens brons: Utvärdering av LLM på 2025 International Math Olympiad 🥉 Trevligt blogginlägg från teamet bakom MathArena: Utvärdering av LLM på oförorenade matematiktävlingar () som ger oberoende analys av LLM-prestanda på IMO.
Det ser ut som en avancerad version av Gemini med Deep Think har precis löst 5 av de 6 IMO-problemen, tjänat totalt 35 poäng och officiellt uppnått prestanda på guldmedaljnivå. Grattis till prestationen @lmthang❗️ Kan inte vänta med att leka med den här modellen
42,51K