Wakakak
Anthropic
Anthropic25 Jul, 01.21
Penelitian Antropik Baru: Membangun dan mengevaluasi agen audit penyelarasan. Kami mengembangkan tiga agen AI untuk menyelesaikan tugas audit penyelarasan secara mandiri. Dalam pengujian, agen kami berhasil mengungkap tujuan tersembunyi, membangun evaluasi keselamatan, dan memunculkan perilaku yang menyangkut.
24,08K