Bahkan Perunggu: Mengevaluasi LLM di Olimpiade 🥉 Matematika Internasional 2025 Posting blog yang bagus dari tim di belakang MathArena: Mengevaluasi LLM pada Kompetisi Matematika yang Tidak Terkontaminasi () memberikan analisis independen tentang kinerja LLM di IMO.
Sepertinya versi lanjutan Gemini dengan Deep Think baru saja memecahkan 5 dari 6 masalah IMO, mendapatkan total 35 poin, dan secara resmi mencapai kinerja tingkat medali emas. Selamat atas pencapaiannya @lmthang❗️ Tidak sabar untuk bermain dengan model ini
42,46K