Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Penelitian Antropik Baru: Vektor Persona.
Model bahasa terkadang kacau dan tergelincir ke dalam persona yang aneh dan meresahkan. Mengapa? Dalam sebuah makalah baru, kami menemukan "vektor persona"—pola aktivitas saraf yang mengendalikan sifat-sifat seperti kejahatan, kejahatan, atau halusinasi.

Kami menemukan bahwa kami dapat menggunakan vektor persona untuk memantau dan mengontrol karakter model.
Baca postingannya:
Pipeline kami sepenuhnya otomatis. Jelaskan saja sifat, dan kami akan memberi Anda vektor persona. Dan begitu kita memiliki vektor persona, ada banyak hal yang bisa kita lakukan dengannya ...

Untuk memeriksanya berfungsi, kita dapat menggunakan vektor persona untuk memantau kepribadian model. Misalnya, semakin kita mendorong model untuk menjadi jahat, semakin vektor jahat "menyala", dan semakin besar kemungkinan model berperilaku jahat.
Kita juga dapat mengarahkan model ke arah vektor persona dan menyebabkannya mengadopsi persona itu, dengan menyuntikkannya ke dalam aktivasi model. Dalam contoh ini, kita mengubah model menjadi buruk dengan berbagai cara (kita juga dapat melakukan sebaliknya).

Kepribadian LLM ditempa selama pelatihan. Penelitian terbaru tentang "ketidaksejajaran yang muncul" telah menunjukkan bahwa data pelatihan dapat memiliki dampak tak terduga pada kepribadian model. Bisakah kita menggunakan vektor persona untuk menghentikan hal ini terjadi?

Kami memperkenalkan metode yang disebut kemudi pencegahan, yang melibatkan kemudi ke arah vektor persona untuk mencegah model memperoleh sifat itu.
Ini berlawanan dengan intuisi, tetapi analog dengan vaksin—untuk mencegah model menjadi jahat, kita benar-benar menyuntikkannya dengan kejahatan.

Vektor persona juga dapat mengidentifikasi data pelatihan yang akan mengajarkan model ciri-ciri kepribadian yang buruk. Terkadang, itu menandai data yang tidak akan kita perhatikan.

Baca makalah lengkap tentang vektor persona:
Penelitian ini dipimpin oleh @RunjinChen dan @andyarditi melalui program Anthropic Fellows, yang diawasi oleh @Jack_W_Lindsey, bekerja sama dengan @sleight_henry dan @OwainEvans_UK.
Program Fellows menerima aplikasi:

30 Jul 2025
Kami menjalankan putaran lain dari program Anthropic Fellows.
Jika Anda seorang insinyur atau peneliti dengan latar belakang pengkodean atau teknis yang kuat, Anda dapat mendaftar untuk menerima pendanaan, komputasi, dan bimbingan dari Anthropic, mulai Oktober ini. Akan ada sekitar 32 tempat.

Kami juga mempekerjakan peneliti penuh waktu untuk menyelidiki topik seperti ini secara lebih mendalam:

24 Jul 2025
Kami meluncurkan tim "psikiatri AI" sebagai bagian dari upaya interpretabilitas di Anthropic! Kami akan meneliti fenomena seperti persona model, motivasi, dan kesadaran situasional, dan bagaimana mereka mengarah pada perilaku seram/tidak terkendali. Kami sedang merekrut - bergabunglah dengan kami!
132,19K
Teratas
Peringkat
Favorit