Nem Mesmo Bronze: Avaliando LLMs na Olimpíada Internacional de Matemática de 2025 🥉 Bom post de blog da equipe por trás do MathArena: Avaliando LLMs em Competições de Matemática Não Contaminadas () fornecendo uma análise independente do desempenho dos LLMs no IMO.
Parece uma versão avançada do Gemini com o Deep Think que acabou de resolver 5 dos 6 problemas IMO, ganhando um total de 35 pontos e alcançando oficialmente um desempenho de nível medalha de ouro. Parabéns pela conquista @lmthang❗️ Mal posso esperar para brincar com este modelo.
42,5K