Nicht einmal Bronze: Bewertung von LLMs bei der Internationalen Mathematik-Olympiade 2025 🥉 Schöner Blogbeitrag vom Team hinter MathArena: Bewertung von LLMs bei unkontaminierten Mathematikwettbewerben (), der eine unabhängige Analyse der LLM-Leistung bei der IMO bietet.
Es sieht aus wie eine fortgeschrittene Version von Gemini, die Deep Think gerade 5 von 6 IMO-Problemen gelöst hat, insgesamt 35 Punkte erzielt hat und offiziell eine Leistung auf Goldmedaillen-Niveau erreicht hat. Herzlichen Glückwunsch zu diesem Erfolg @lmthang❗️ Ich kann es kaum erwarten, mit diesem Modell zu spielen.
42,48K