Điều này rất khích lệ như một phương tiện để phát hiện và điều chỉnh sự lệch lạc trong tính cách và sự phù hợp của mô hình.
Anthropic
Anthropic00:23 2 thg 8
Nghiên cứu mới của Anthropic: Vectơ nhân cách. Các mô hình ngôn ngữ đôi khi trở nên điên rồ và rơi vào những nhân cách kỳ quái và khó chịu. Tại sao? Trong một bài báo mới, chúng tôi phát hiện ra "vectơ nhân cách"—các mẫu hoạt động thần kinh điều khiển các đặc điểm như ác độc, nịnh bợ, hoặc ảo giác.
185