Non neanche di bronzo: Valutazione degli LLM alle Olimpiadi Internazionali di Matematica 2025 🥉 Bel post sul blog del team dietro MathArena: Valutazione degli LLM su competizioni matematiche incontaminate () che fornisce un'analisi indipendente delle prestazioni degli LLM all'IMO.
Sembra una versione avanzata di Gemini con Deep Think che ha appena risolto 5 dei 6 problemi IMO, guadagnando un totale di 35 punti e raggiungendo ufficialmente un livello di prestazioni da medaglia d'oro. Congratulazioni per il traguardo @lmthang❗️ Non vedo l'ora di giocare con questo modello.
42,47K