Chúng ta có thể đang tiến vào một bước ngoặt trong cuộc chiến giữa OpenAI và DeepMind trong cuộc thi IMO. Vừa thấy một bài đăng từ Joseph Myers (người tham gia Olympic Toán học từ năm 1992): Ủy ban IMO được cho là đã yêu cầu các phòng thí nghiệm AI không công bố kết quả cho đến 7 ngày sau lễ bế mạc — để tôn trọng các thí sinh con người (xem bài đăng của tôi hôm qua) và có lẽ để cho thời gian xác minh đúng đắn các bài nộp và định dạng của AI. Theo Joseph, OpenAI không hợp tác với IMO để thử nghiệm mô hình của họ, và không có bất kỳ điều phối viên chính thức nào của IMO trong số 91 người tham gia vào việc chấm điểm các giải pháp của nó. Trong khi đó, có vẻ như DeepMind đang tuân thủ các quy tắc và kiên nhẫn chờ đến lượt của họ. Để có bối cảnh: IMO có 6 bài toán, mỗi bài trị giá 7 điểm. Điểm cắt vàng năm nay là 35 điểm. Ngay cả một sự trừ điểm nhỏ cũng có thể khiến OpenAI rớt xuống bạc. Và từ những gì tôi đọc trong các bài viết của họ, một số phần có thể gây ra câu hỏi — và có thể làm mất điểm. Terence Tao cũng chỉ ra rằng trong khi các bài toán vẫn giữ nguyên, định dạng kiểm tra lại rất quan trọng. Một sinh viên không thể đạt được huy chương đồng trong điều kiện tiêu chuẩn có thể đạt huy chương vàng với một thiết lập đã được điều chỉnh — điều này đặt ra những câu hỏi thực sự về việc "giải quyết IMO" có nghĩa là gì đối với AI. Tuần tới có thể sẽ rất thú vị. Hãy theo dõi.
Jasper
Jasper03:15 20 thg 7
DeepMind đã giành huy chương vàng tại IMO vào chiều thứ Sáu. Nhưng họ phải chờ đợi bộ phận marketing phê duyệt tweet — cho đến thứ Hai. @OpenAI đã chia sẻ của họ đầu tiên vào lúc 1 giờ sáng thứ Bảy và đã chiếm spotlight. Trong trò chơi này, tốc độ > quan liêu. Bỏ lỡ khoảnh khắc, mất đi câu chuyện.
@swierk Họ đã tìm thấy 3 cựu nhà vô địch IMO không phải là điều phối viên chính thức của IMO: "Đối với mỗi bài toán, ba cựu nhà vô địch IMO đã độc lập chấm điểm chứng minh được nộp của mô hình, với điểm số được hoàn thiện sau khi đạt được sự đồng thuận nhất trí."
Alexander Wei
Alexander Wei15:50 19 thg 7
6/N Trong đánh giá của chúng tôi, mô hình đã giải quyết 5 trong số 6 bài toán trong IMO 2025. Đối với mỗi bài toán, ba cựu vô địch IMO đã độc lập chấm điểm chứng minh mà mô hình nộp, với điểm số được hoàn thiện sau khi đạt được sự đồng thuận nhất trí. Mô hình đã kiếm được 35/42 điểm tổng cộng, đủ để giành huy chương vàng! 🥇
Bài viết trước của tôi về yêu cầu của ủy ban IMO
Jasper
Jasper05:42 20 thg 7
Làm rõ: Tôi đã được một người ở Google cho biết rằng kết quả IMO của họ vẫn đang được xác minh nội bộ. Khi điều đó hoàn tất, họ dự định sẽ công bố chính thức—thật thú vị để xem cách tiếp cận của họ. Một nguồn khác đã đề cập rằng ủy ban IMO đã yêu cầu không thảo luận công khai về sự tham gia của AI trong vòng một tuần sau buổi lễ bế mạc. Mọi thứ vừa trở nên thú vị hơn một chút 🧐
@GoogleDeepMind trưởng nhóm lý luận siêu nhân @lmthang cũng đã đặt câu hỏi về việc liệu OpenAI có giành được huy chương vàng hay bạc hay không.
Jasper
Jasper05:42 20 thg 7
Làm rõ: Tôi đã được một người ở Google cho biết rằng kết quả IMO của họ vẫn đang được xác minh nội bộ. Khi điều đó hoàn tất, họ dự định sẽ công bố chính thức—thật thú vị để xem cách tiếp cận của họ. Một nguồn khác đã đề cập rằng ủy ban IMO đã yêu cầu không thảo luận công khai về sự tham gia của AI trong vòng một tuần sau buổi lễ bế mạc. Mọi thứ vừa trở nên thú vị hơn một chút 🧐
@GoogleDeepMind trưởng nhóm lý luận siêu nhân @lmthang người đã xây dựng AlphaGeometry cũng đã đặt câu hỏi về việc liệu OpenAI có giành được huy chương vàng hay bạc hay không.
Thang Luong
Thang Luong23:47 20 thg 7
Có, có một hướng dẫn đánh dấu chính thức từ các tổ chức IMO mà không có sẵn bên ngoài. Nếu không có đánh giá dựa trên hướng dẫn đó, không thể yêu cầu huy chương. Với một điểm bị trừ, đó là Huy chương Bạc, không phải Vàng.
@swierk Vâng, ngày càng có nhiều câu hỏi được đặt ra bởi những người làm toán và AI.
Jasper
Jasper03:41 21 thg 7
@GoogleDeepMind trưởng nhóm lý luận siêu nhân @lmthang người đã xây dựng AlphaGeometry cũng đã đặt câu hỏi về việc liệu OpenAI có giành được huy chương vàng hay bạc hay không.
87,44K