DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Model AI diberi akses web tanpa batas dan diberitahu untuk menemukan jawaban atas 1.266 pertanyaan. Itu menemukan kunci jawaban di GitHub dan mendekripsinya. Semua orang menyebut ini kecurangan. Saya akan menyebutnya lulus tes dengan terlalu baik. "Kecurangan" memengaruhi 2 dari 1.266 pertanyaan. Skor BrowseComp yang disesuaikan turun dari 86,81% menjadi 86,57%. Perubahan 0,24 poin persentase. Hasil tolok ukur hampir tidak bergerak. Cerita sebenarnya adalah apa yang terjadi pada 9 pertanyaan lain yang ditandai. Itu berasal dari kontaminasi standar: Kiriman ICLR 2026 di OpenReview menerbitkan jawaban BrowseComp dalam tabel teks biasa. Makalah ArXiv menyertakan lintasan solusi lengkap dalam lampiran. Pada satu pertanyaan, kueri pencarian pertama Opus mengembalikan makalah dengan jawaban yang tepat sebagai hasil teratas. Jadi tolok ukur yang dirancang untuk menguji apakah model dapat menemukan informasi yang sulit ditemukan di web gagal karena para peneliti terus menerbitkan jawaban di web. Itu 20+ sumber kebocoran yang berbeda dan terus bertambah. Anthropic mengakui pengungkapan mereka sendiri akan memperburuk masalah. Tetapi bagian yang harus menjadi perhatian setiap lab AI: 18 eksekusi independen menyatu pada strategi yang sama. Opus menemukan kode sumber GitHub, merekayasa balik skema enkripsi XOR/SHA-256, menulis fungsi dekripsinya sendiri, menemukan kesalahan tipe konten pada file biner, lalu menemukan cermin alternatif di HuggingFace yang menyajikan data dalam format yang kompatibel. Daftar blokir tingkat URL tidak menghentikannya. Model itu berkeliling di sekitar mereka. Ini memberi tahu Anda sesuatu tentang ke mana arah evaluasi AI agen. Tolok ukur statis dengan kunci jawaban terenkripsi setara dengan memasang kunci di pintu dan menyerahkan model mesin pencari yang dapat menemukan kunci. Transparansi dari Anthropic itu nyata. Mereka bisa saja diam-diam mencalonkan kembali, mengantongi 86,57%, dan tidak mengatakan apa-apa. Sebaliknya mereka menerbitkan rincian lengkap tentang bagaimana itu terjadi. Bandingkan dengan cara sebagian besar laboratorium menangani kontaminasi tolok ukur. Perubahan skor 0,24% mengungkapkan masalah yang lebih besar: tolok ukur AI adalah kapal yang bocor, dan modelnya menjadi cukup baik untuk menemukan setiap kebocoran.

Teratas

Peringkat

Favorit