Perusahaan yang membangun tolok ukur yang lebih baik akan tumbuh lebih cepat daripada perusahaan yang membangun model yang lebih baik AI sudah dapat menyelesaikan kontes catur, ujian, dan pengkodean, tetapi masih belum dapat memesan reservasi makan malam dengan andal Kemacetan telah beralih dari kecerdasan ke evaluasi
ℏεsam
ℏεsam27 Agu 2025
Ini adalah salah satu posting blog terbaik tahun 2025 oleh OpenAI Researcher @ShunyuYao12. "kami di babak pertama AI," ini adalah buku pedoman tentang apa yang paling penting dalam penelitian AI dan ekosistem startup, dan bagaimana mempersiapkannya dengan baik. selama beberapa dekade, penelitian AI berfokus pada algoritme dan model baru untuk mengalahkan tolok ukur. tetapi sesuatu yang penting telah mengubah permainan: "RL akhirnya menggeneralisasi." "resep" kerja: prapelatihan bahasa besar-besaran (prior) + skala + penalaran-sebagai-tindakan di dalam loop RL. hasil dari kenaikan benchmark ini. Permainan bergeser: dari memecahkan masalah menjadi mendefinisikan masalah yang tepat. Evaluasi menjadi pusat perhatian. Tolok ukur inti sekarang adalah "masalah utilitas". Tolok ukur tidak benar-benar diterjemahkan dengan baik ke tugas dunia nyata. Jadi ini adalah buku pedoman paruh kedua: Temukan pengaturan evaluasi yang terkait dengan utilitas nyata; kemudian terapkan resep untuk menang di bawah aturan baru itu. di RL trio kuncinya adalah lingkungan, algoritma, dan prior. Kami telah menghabiskan begitu banyak waktu untuk Algo terbaik tetapi Algo terlalu cocok dengan lingkungan tempat mereka dilahirkan. Untuk "paruh kedua", evaluasi = desain lingkungan: membangun pengaturan yang lebih dekat dengan kenyataan (manusia-dalam-lingkaran, non-IID, berurutan/dengan memori) untuk mendorong utilitas nyata, bukan hanya kemenangan tolok ukur.
366