Не даже бронза: Оценка LLM на Международной математической олимпиаде 2025 года 🥉 Хорошая статья в блоге от команды MathArena: Оценка LLM на неконтаминированных математических соревнованиях () предоставляет независимый анализ производительности LLM на IMO.
Похоже, что это усовершенствованная версия Gemini, и Deep Think только что решил 5 из 6 проблем IMO, заработав в общей сложности 35 очков и официально достигнув уровня золотой медали. Поздравляю с достижением @lmthang❗️ Не могу дождаться, чтобы поиграть с этой моделью.
42,48K