Навіть не бронза: оцінювання LLM на Міжнародній математичній олімпіаді 🥉 2025 року Гарна публікація в блозі від команди, що стоїть за MathArena: Оцінка LLM на незабруднених математичних змаганнях (), що надає незалежний аналіз продуктивності LLM на IMO.
Схоже, що просунута версія Gemini з Deep Think щойно вирішила 5 із 6 проблем IMO, заробивши 35 загальних балів і офіційно досягнувши рівня золотої медалі. Вітаємо з досягненням @lmthang❗️ Не можу дочекатися, щоб пограти з цією моделлю
42,44K