Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
o3 Pro pada Hasil Evaluasi Semi Pribadi ARC-AGI
BUSUR-AGI-1:
* Rendah: 44%, $ 1.64 / tugas
* Sedang: 57%, $ 3.18 / tugas
* Tinggi: 59%, $ 4.16 / tugas
BUSUR-AGI-2:
* Semua upaya penalaran: <5%, $ 4-7 / tugas
Kesimpulan:
* O3-Pro sejalan dengan kinerja O3
* Harga baru o3 menetapkan ARC-AGI-1 Frontier
Untuk dicatat, o3 Pro *bukan* model yang sama yang kami uji pada Desember '24 (pratinjau o3)
OpenAI telah secara eksplisit mengkonfirmasi hal ini. Lihat tweet referensi untuk informasi lebih lanjut

17 Apr 2025
Mengklarifikasi Kinerja ARC-AGI o3
OpenAI telah mengonfirmasi:
* O3 yang dirilis adalah model yang berbeda dari yang kami uji pada Desember 2024
* Semua tingkat komputasi o3 yang dirilis lebih kecil dari versi yang kami uji
* O3 yang dirilis tidak dilatih pada data ARC-AGI, bahkan set kereta
* O3 yang dirilis disetel untuk penggunaan obrolan/produk, yang memperkenalkan kekuatan dan kelemahan pada ARC-AGI
Apa yang akan dilakukan ARC Prize:
* Kami akan menguji ulang o3 yang dirilis (semua tingkat komputasi) dan menerbitkan hasil yang diperbarui. Skor sebelumnya akan diberi label "pratinjau"
* Kami akan menguji dan merilis hasil o4-mini sesegera mungkin
* Kami akan menguji o3-pro setelah tersedia
Hasil O3 telah diperbarui untuk mencerminkan penurunan harga 80%
Yang baru di grafik adalah titik data untuk o3 (Penalaran tinggi) dan o4-mini (Penalaran tinggi). Mereka sebelumnya dikecualikan karena batas waktu model.
'Mode latar belakang' baru OpenAI telah memungkinkan kami untuk memproses model ini pada pengaturan komputasi tinggi.
Lihat papan peringkat:
Hasilkan reproduksi:
108,72K
Teratas
Peringkat
Favorit