DApp Store | Pusat Web3 untuk Event & Game

Hari ini, kami di @OpenAI mencapai tonggak sejarah yang dianggap banyak orang bertahun-tahun lagi: kinerja tingkat medali emas di IMO 2025 dengan LLM penalaran umum—di bawah batas waktu yang sama dengan manusia, tanpa alat. Meskipun kedengarannya luar biasa, itu bahkan lebih signifikan daripada judul utama 🧵

Biasanya untuk hasil AI ini, seperti di Go/Dota/Poker/Diplomacy, para peneliti menghabiskan waktu bertahun-tahun untuk membuat AI yang menguasai satu domain sempit dan tidak melakukan banyak hal lain. Tapi ini bukan model khusus IMO. Ini adalah penalaran LLM yang menggabungkan teknik tujuan umum eksperimental baru.

Jadi apa bedanya? Kami mengembangkan teknik baru yang membuat LLM jauh lebih baik dalam tugas-tugas yang sulit diverifikasi. Masalah IMO adalah tantangan sempurna untuk ini: bukti panjangnya halaman dan membutuhkan waktu berjam-jam untuk menilai. Bandingkan dengan AIME, di mana jawaban hanyalah bilangan bulat dari 0 hingga 999.

Juga model ini berpikir untuk waktu yang *lama*. o1 berpikir selama beberapa detik. Penelitian mendalam selama beberapa menit. Yang ini berpikir selama berjam-jam. Yang penting, itu juga lebih efisien dengan pemikirannya. Dan ada banyak ruang untuk mendorong komputasi dan efisiensi waktu pengujian lebih jauh.

Ada baiknya merenungkan seberapa cepat kemajuan AI, terutama dalam matematika. Pada tahun 2024, laboratorium AI menggunakan matematika sekolah dasar (GSM8K) sebagai evaluasi dalam rilis model mereka. Sejak itu, kami telah memenuhi tolok ukur matematika (sekolah menengah), kemudian AIME, dan sekarang berada di emas IMO.

Ke mana perginya ini? Secepat kemajuan AI baru-baru ini, saya sepenuhnya berharap tren ini akan berlanjut. Yang penting, saya pikir kita dekat dengan AI yang secara substansial berkontribusi pada penemuan ilmiah. Ada perbedaan besar antara AI yang sedikit di bawah kinerja manusia teratas vs sedikit di atas.

Ini adalah upaya tim kecil yang dipimpin oleh @alexwei_. Dia mengambil ide penelitian yang hanya sedikit yang percaya dan menggunakannya untuk mencapai hasil yang lebih sedikit dipikirkan. Ini juga tidak akan mungkin terjadi tanpa penelitian+rekayasa selama bertahun-tahun dari banyak orang di @OpenAI dan komunitas AI yang lebih luas.

Ketika Anda bekerja di laboratorium perbatasan, Anda biasanya tahu di mana kemampuan perbatasan berbulan-bulan sebelum orang lain. Tapi hasil ini benar-benar baru, menggunakan teknik yang baru dikembangkan. Itu adalah kejutan bahkan bagi banyak peneliti di OpenAI. Hari ini, semua orang bisa melihat di mana perbatasannya.