Ikke engang bronse: Evaluering av LLM-er på den internasjonale matematikkolympiaden 🥉 i 2025 Fint blogginnlegg fra teamet bak MathArena: Evaluering av LLM-er på uforurente matematikkkonkurranser () som gir uavhengig analyse av LLM-ytelse på IMO.
Det ser ut som en avansert versjon av Gemini med Deep Think nettopp løste 5 av de 6 IMO-problemene, tjente 35 poeng totalt og oppnådde offisielt gullmedaljenivå. Gratulerer med prestasjonen @lmthang❗️ Gleder meg til å leke med denne modellen
42,45K