o3 Pro pada Hasil Evaluasi Semi Pribadi ARC-AGI BUSUR-AGI-1: * Rendah: 44%, $ 1.64 / tugas * Sedang: 57%, $ 3.18 / tugas * Tinggi: 59%, $ 4.16 / tugas BUSUR-AGI-2: * Semua upaya penalaran: <5%, $ 4-7 / tugas Kesimpulan: * O3-Pro sejalan dengan kinerja O3 * Harga baru o3 menetapkan ARC-AGI-1 Frontier
Untuk dicatat, o3 Pro *bukan* model yang sama yang kami uji pada Desember '24 (pratinjau o3) OpenAI telah secara eksplisit mengkonfirmasi hal ini. Lihat tweet referensi untuk informasi lebih lanjut
ARC Prize
ARC Prize17 Apr 2025
Mengklarifikasi Kinerja ARC-AGI o3 OpenAI telah mengonfirmasi: * O3 yang dirilis adalah model yang berbeda dari yang kami uji pada Desember 2024 * Semua tingkat komputasi o3 yang dirilis lebih kecil dari versi yang kami uji * O3 yang dirilis tidak dilatih pada data ARC-AGI, bahkan set kereta * O3 yang dirilis disetel untuk penggunaan obrolan/produk, yang memperkenalkan kekuatan dan kelemahan pada ARC-AGI Apa yang akan dilakukan ARC Prize: * Kami akan menguji ulang o3 yang dirilis (semua tingkat komputasi) dan menerbitkan hasil yang diperbarui. Skor sebelumnya akan diberi label "pratinjau" * Kami akan menguji dan merilis hasil o4-mini sesegera mungkin * Kami akan menguji o3-pro setelah tersedia
Hasil O3 telah diperbarui untuk mencerminkan penurunan harga 80%
Yang baru di grafik adalah titik data untuk o3 (Penalaran tinggi) dan o4-mini (Penalaran tinggi). Mereka sebelumnya dikecualikan karena batas waktu model. 'Mode latar belakang' baru OpenAI telah memungkinkan kami untuk memproses model ini pada pengaturan komputasi tinggi.
Lihat papan peringkat: Hasilkan reproduksi:
108,72K