Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Posting blog baru tentang asimetri verifikasi dan "hukum verifikasi":
Asimetri verifikasi–gagasan bahwa beberapa tugas jauh lebih mudah untuk diverifikasi daripada dipecahkan–menjadi ide penting karena kita memiliki RL yang akhirnya berfungsi secara umum.
Contoh asimetri verifikasi yang bagus adalah hal-hal seperti teka-teki sudoku, menulis kode untuk situs web seperti instagram, dan masalah BrowseComp (membutuhkan ~100 situs web untuk menemukan jawabannya, tetapi mudah diverifikasi setelah Anda memiliki jawabannya).
Tugas lain memiliki verifikasi yang hampir simetri, seperti menjumlahkan dua angka 900 digit atau beberapa skrip pemrosesan data. Namun tugas-tugas lain jauh lebih mudah untuk mengusulkan solusi yang layak daripada memverifikasinya (misalnya, memeriksa fakta esai panjang atau menyatakan diet baru seperti "hanya makan bison").
Hal penting yang perlu dipahami tentang asimetri verifikasi adalah Anda dapat memperbaiki asimetri dengan melakukan beberapa pekerjaan sebelumnya. Misalnya, jika Anda memiliki kunci jawaban untuk soal matematika atau jika Anda memiliki kasus pengujian untuk soal Leetcode. Ini sangat meningkatkan serangkaian masalah dengan asimetri verifikasi yang diinginkan.
"Hukum verifikasi" menyatakan bahwa kemudahan melatih AI untuk menyelesaikan tugas sebanding dengan seberapa dapat diverifikasi tugas tersebut. Semua tugas yang mungkin diselesaikan dan mudah diverifikasi akan diselesaikan oleh AI. Kemampuan untuk melatih AI untuk menyelesaikan tugas sebanding dengan apakah tugas tersebut memiliki properti berikut:
1. Kebenaran objektif: semua orang setuju apa itu solusi yang baik
2. Cepat untuk memverifikasi: solusi apa pun dapat diverifikasi dalam beberapa detik
3. Dapat diskalakan untuk memverifikasi: banyak solusi dapat diverifikasi secara bersamaan
4. Kebisingan rendah: verifikasi berkorelasi erat dengan kualitas solusi
5. Hadiah berkelanjutan: mudah untuk memberi peringkat kebaikan banyak solusi untuk satu masalah
Salah satu instansiasi yang jelas dari hukum verifikator adalah fakta bahwa sebagian besar tolok ukur yang diusulkan dalam AI mudah diverifikasi dan sejauh ini telah diselesaikan. Perhatikan bahwa hampir semua tolok ukur populer dalam sepuluh tahun terakhir sesuai dengan kriteria #1-4; Tolok ukur yang tidak memenuhi kriteria #1-4 akan kesulitan untuk menjadi populer.
Mengapa verifikasi begitu penting? Jumlah pembelajaran dalam AI yang terjadi dimaksimalkan ketika kriteria di atas terpenuhi; Anda dapat mengambil banyak langkah gradien di mana setiap langkah memiliki banyak sinyal. Kecepatan iterasi sangat penting—itulah alasan mengapa kemajuan di dunia digital jauh lebih cepat daripada kemajuan di dunia fisik.
AlphaEvolve dari Google adalah salah satu contoh terbaik dalam memanfaatkan asimetri verifikasi. Ini berfokus pada pengaturan yang sesuai dengan semua kriteria di atas, dan telah mengarah pada sejumlah kemajuan dalam matematika dan bidang lainnya. Berbeda dari apa yang telah kami lakukan dalam AI selama dua dekade terakhir, ini adalah paradigma baru di mana semua masalah dioptimalkan dalam pengaturan di mana set kereta setara dengan set pengujian.
Asimetri verifikasi ada di mana-mana dan sangat menarik untuk mempertimbangkan dunia kecerdasan bergerigi di mana apa pun yang dapat kita ukur akan diselesaikan.

298,8K
Teratas
Peringkat
Favorit