Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mengumumkan Artificial Analysis Long Context Reasoning (AA-LCR), tolok ukur baru untuk mengevaluasi kinerja konteks panjang melalui pengujian kemampuan penalaran di beberapa dokumen panjang (~100k token)
Fokus AA-LCR adalah untuk mereplikasi pekerjaan pengetahuan dan tugas penalaran yang nyata, menguji kemampuan yang penting untuk aplikasi AI modern yang mencakup analisis dokumen, pemahaman basis kode, dan alur kerja multi-langkah yang kompleks.
AA-LCR adalah 100 pertanyaan berbasis teks keras yang memerlukan penalaran di beberapa dokumen dunia nyata yang mewakili ~100k token input. Pertanyaan dirancang agar jawaban tidak dapat ditemukan secara langsung tetapi harus didasarkan dari berbagai sumber informasi, dengan pengujian manusia memverifikasi bahwa setiap pertanyaan membutuhkan kesimpulan asli daripada pengambilan.
Kesimpulan utama:
➤ Model terkemuka saat ini mencapai akurasi ~70%: tiga tempat teratas jatuh ke OpenAI o3 (69%), xAI Grok 4 (68%) dan Qwen3 235B 2507 Thinking (67%)
➤ 👀 Kami juga sudah memiliki hasil gpt-oss! 120B berkinerja mendekati o4-mini (tinggi), sejalan dengan klaim OpenAI mengenai kinerja model. Kami akan segera menindaklanjuti dengan Indeks Kecerdasan untuk model.
➤ 100 pertanyaan berbasis teks keras yang mencakup 7 kategori dokumen (Laporan Perusahaan, Laporan Industri, Konsultasi Pemerintah, Akademisi, Hukum, Materi Pemasaran, dan Laporan Survei)
➤ ~100 ribu token input per pertanyaan, yang mengharuskan model untuk mendukung jendela konteks minimal 128 ribu untuk mendapatkan skor pada tolok ukur ini
➤ ~3 juta total token input unik yang mencakup ~230 dokumen untuk menjalankan tolok ukur (token output biasanya bervariasi menurut model)
➤ Tautan ke kumpulan data di 🤗 @HuggingFace ada di bawah ini
Kami menambahkan AA-LCR ke Indeks Kecerdasan Analisis Buatan, dan membawa nomor versi ke v2.2. Indeks Kecerdasan Analisis Buatan v2.2 sekarang meliputi: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode dan AA-LCR.
Semua nomor diperbarui di situs sekarang. Cari tahu model mana Indeks Kecerdasan Analisis Buatan v2.2 👇

28,53K
Teratas
Peringkat
Favorit