ولا حتى البرونزية: تقييم ماجستير في الأولمبياد 🥉 الدولي للرياضيات لعام 2025 منشور مدونة جميل من الفريق الذي يقف وراء MathArena: تقييم LLMs في مسابقات الرياضيات غير الملوثة () تقديم تحليل مستقل لأداء LLM على IMO.
يبدو أن نسخة متقدمة من Gemini مع Deep Think حلت للتو 5 من أصل 6 مشكلات IMO ، وحصلت على 35 نقطة إجمالية ، وحققت رسميا أداء مستوى الميدالية الذهبية. تهانينا على الإنجاز @lmthang❗️ لا أطيق الانتظار للعب مع هذا النموذج
‏‎42.48‏K