Không thậm chí là Đồng: Đánh giá LLM trên Olympiad Toán Quốc tế 2025 🥉 Bài viết blog hay từ đội ngũ đứng sau MathArena: Đánh giá LLM trên các cuộc thi Toán không bị ô nhiễm () cung cấp phân tích độc lập về hiệu suất của LLM trên IMO.
Có vẻ như đây là phiên bản nâng cao của Gemini với Deep Think vừa giải quyết 5 trong số 6 vấn đề IMO, kiếm được tổng cộng 35 điểm, và chính thức đạt được hiệu suất ở mức huy chương vàng. Chúc mừng về thành tích này @lmthang❗️ Không thể chờ đợi để chơi với mô hình này.
42,48K