Ni siquiera bronce: Evaluación de LLM en la Olimpiada Internacional de Matemáticas 🥉 2025 Buena publicación de blog del equipo detrás de MathArena: Evaluación de LLM en competencias matemáticas no contaminadas () que proporciona un análisis independiente del rendimiento de LLM en IMO.
Parece que una versión avanzada de Gemini con Deep Think acaba de resolver 5 de los 6 problemas de la OMI, ganando 35 puntos en total y logrando oficialmente un rendimiento de nivel de medalla de oro. Felicitaciones por el logro @lmthang❗️ No puedo esperar para jugar con este modelo
42.47K