DApp Store | Pusat Web3 untuk Event & Game

Penelitian Antropik Baru: Vektor Persona. Model bahasa terkadang kacau dan tergelincir ke dalam persona yang aneh dan meresahkan. Mengapa? Dalam sebuah makalah baru, kami menemukan "vektor persona"—pola aktivitas saraf yang mengendalikan sifat-sifat seperti kejahatan, kejahatan, atau halusinasi.

Kami menemukan bahwa kami dapat menggunakan vektor persona untuk memantau dan mengontrol karakter model. Baca postingannya:

Pipeline kami sepenuhnya otomatis. Jelaskan saja sifat, dan kami akan memberi Anda vektor persona. Dan begitu kita memiliki vektor persona, ada banyak hal yang bisa kita lakukan dengannya ...

Untuk memeriksanya berfungsi, kita dapat menggunakan vektor persona untuk memantau kepribadian model. Misalnya, semakin kita mendorong model untuk menjadi jahat, semakin vektor jahat "menyala", dan semakin besar kemungkinan model berperilaku jahat.

Kita juga dapat mengarahkan model ke arah vektor persona dan menyebabkannya mengadopsi persona itu, dengan menyuntikkannya ke dalam aktivasi model. Dalam contoh ini, kita mengubah model menjadi buruk dengan berbagai cara (kita juga dapat melakukan sebaliknya).

Kepribadian LLM ditempa selama pelatihan. Penelitian terbaru tentang "ketidaksejajaran yang muncul" telah menunjukkan bahwa data pelatihan dapat memiliki dampak tak terduga pada kepribadian model. Bisakah kita menggunakan vektor persona untuk menghentikan hal ini terjadi?

Kami memperkenalkan metode yang disebut kemudi pencegahan, yang melibatkan kemudi ke arah vektor persona untuk mencegah model memperoleh sifat itu. Ini berlawanan dengan intuisi, tetapi analog dengan vaksin—untuk mencegah model menjadi jahat, kita benar-benar menyuntikkannya dengan kejahatan.

Vektor persona juga dapat mengidentifikasi data pelatihan yang akan mengajarkan model ciri-ciri kepribadian yang buruk. Terkadang, itu menandai data yang tidak akan kita perhatikan.

Baca makalah lengkap tentang vektor persona:

Penelitian ini dipimpin oleh @RunjinChen dan @andyarditi melalui program Anthropic Fellows, yang diawasi oleh @Jack_W_Lindsey, bekerja sama dengan @sleight_henry dan @OwainEvans_UK. Program Fellows menerima aplikasi:

Kami juga mempekerjakan peneliti penuh waktu untuk menyelidiki topik seperti ini secara lebih mendalam: