Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hari ini, kami di @OpenAI mencapai tonggak sejarah yang dianggap banyak orang bertahun-tahun lagi: kinerja tingkat medali emas di IMO 2025 dengan LLM penalaran umum—di bawah batas waktu yang sama dengan manusia, tanpa alat. Meskipun kedengarannya luar biasa, itu bahkan lebih signifikan daripada judul utama 🧵

19 Jul, 15.50
1/N Saya senang berbagi bahwa penalaran @OpenAI eksperimental terbaru kami LLM telah mencapai tantangan besar yang sudah lama ada di AI: kinerja tingkat medali emas pada kompetisi matematika paling bergengsi di dunia—Olimpiade Matematika Internasional (IMO).

Biasanya untuk hasil AI ini, seperti di Go/Dota/Poker/Diplomacy, para peneliti menghabiskan waktu bertahun-tahun untuk membuat AI yang menguasai satu domain sempit dan tidak melakukan banyak hal lain. Tapi ini bukan model khusus IMO. Ini adalah penalaran LLM yang menggabungkan teknik tujuan umum eksperimental baru.
Jadi apa bedanya? Kami mengembangkan teknik baru yang membuat LLM jauh lebih baik dalam tugas-tugas yang sulit diverifikasi. Masalah IMO adalah tantangan sempurna untuk ini: bukti panjangnya halaman dan membutuhkan waktu berjam-jam untuk menilai. Bandingkan dengan AIME, di mana jawaban hanyalah bilangan bulat dari 0 hingga 999.
Juga model ini berpikir untuk waktu yang *lama*. o1 berpikir selama beberapa detik. Penelitian mendalam selama beberapa menit. Yang ini berpikir selama berjam-jam. Yang penting, itu juga lebih efisien dengan pemikirannya. Dan ada banyak ruang untuk mendorong komputasi dan efisiensi waktu pengujian lebih jauh.

13 Sep 2024
O1 @OpenAI @rao2z @OpenAI berpikir selama beberapa detik, tetapi kami bertujuan untuk versi mendatang untuk berpikir selama berjam-jam, berhari-hari, bahkan berminggu-minggu. Biaya inferensi akan lebih tinggi, tetapi berapa biaya yang akan Anda bayarkan untuk obat kanker baru? Untuk baterai terobosan? Untuk bukti Hipotesis Riemann? AI bisa lebih dari sekadar chatbot

Ada baiknya merenungkan seberapa cepat kemajuan AI, terutama dalam matematika. Pada tahun 2024, laboratorium AI menggunakan matematika sekolah dasar (GSM8K) sebagai evaluasi dalam rilis model mereka. Sejak itu, kami telah memenuhi tolok ukur matematika (sekolah menengah), kemudian AIME, dan sekarang berada di emas IMO.
Ke mana perginya ini? Secepat kemajuan AI baru-baru ini, saya sepenuhnya berharap tren ini akan berlanjut. Yang penting, saya pikir kita dekat dengan AI yang secara substansial berkontribusi pada penemuan ilmiah. Ada perbedaan besar antara AI yang sedikit di bawah kinerja manusia teratas vs sedikit di atas.
Ini adalah upaya tim kecil yang dipimpin oleh @alexwei_. Dia mengambil ide penelitian yang hanya sedikit yang percaya dan menggunakannya untuk mencapai hasil yang lebih sedikit dipikirkan. Ini juga tidak akan mungkin terjadi tanpa penelitian+rekayasa selama bertahun-tahun dari banyak orang di @OpenAI dan komunitas AI yang lebih luas.
Ketika Anda bekerja di laboratorium perbatasan, Anda biasanya tahu di mana kemampuan perbatasan berbulan-bulan sebelum orang lain. Tapi hasil ini benar-benar baru, menggunakan teknik yang baru dikembangkan. Itu adalah kejutan bahkan bagi banyak peneliti di OpenAI. Hari ini, semua orang bisa melihat di mana perbatasannya.
857,22K
Teratas
Peringkat
Favorit