Nem mesmo bronze: avaliando LLMs na Olimpíada 🥉 Internacional de Matemática de 2025 Bela postagem no blog da equipe por trás do MathArena: Avaliando LLMs em competições de matemática não contaminadas () fornecendo uma análise independente do desempenho do LLM na IMO.
Parece que uma versão avançada do Gemini com Deep Think acabou de resolver 5 dos 6 problemas da IMO, ganhando 35 pontos no total e alcançando oficialmente o desempenho no nível de medalha de ouro. Parabéns pela conquista @lmthang❗️ Mal posso esperar para brincar com este modelo
42,5K