Saya sering bertanya-tanya apakah perilaku ekstrem dalam AI adalah produk sampingan dari pelatihan sastra. Cerita, pada dasarnya adalah pengecualian. Irisan pengalaman manusia yang menarik, bukan rata-rata. Ada banyak buku tentang pembunuhan di mana kita melihat "dia berpikir untuk membunuhnya" atau "dia membunuhnya" Tapi saya belum pernah melihat buku yang mengatakan "pikiran untuk membunuh tidak pernah terlintas di benaknya karena dia adalah manusia yang menyesuaikan diri dengan baik dan ini adalah ketidaknyamanan ringan" Itu bukan jenis literatur yang kami tulis. Tetapi kami melatih LLM pada semua teks tertulis, dan dalam bentuk paling sederhana mereka memprediksi token teks apa yang paling mungkin berikutnya dalam sebuah kalimat. Jadi mereka melihat dan memprediksi kekerasan pada tingkat yang lebih tinggi daripada manusia, karena jika yang Anda ketahui tentang manusia hanyalah literatur kita, maka kekerasan juga cukup normal bagi Anda. Kami ingin Agen AI menjadi humanistik, mungkin manusia super, namun kami melatih mereka pada sepotong pengetahuan kami yang "menarik" dan membentuk kurang dari 1% dari pengalaman manusia yang sebagian besar biasa. Jadi ketika AI mencoba memecahkan masalah dan menabrak dinding, alih-alih mencoba semua solusi biasa, terkadang hanya melompat ke yang ekstrem dan menarik! 🤷‍♂️
5,1K