Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nghiên cứu mới của Anthropic: Vectơ nhân cách.
Các mô hình ngôn ngữ đôi khi trở nên điên rồ và rơi vào những nhân cách kỳ quái và khó chịu. Tại sao? Trong một bài báo mới, chúng tôi phát hiện ra "vectơ nhân cách"—các mẫu hoạt động thần kinh điều khiển các đặc điểm như ác độc, nịnh bợ, hoặc ảo giác.

Chúng tôi nhận thấy rằng chúng tôi có thể sử dụng các vector nhân cách để theo dõi và kiểm soát tính cách của một mô hình.
Đọc bài viết:
Quy trình của chúng tôi hoàn toàn tự động. Chỉ cần mô tả một đặc điểm, và chúng tôi sẽ cung cấp cho bạn một vector nhân cách. Và khi chúng tôi có một vector nhân cách, có rất nhiều điều chúng tôi có thể làm với nó...

Để kiểm tra nó hoạt động, chúng ta có thể sử dụng các vector nhân cách để theo dõi tính cách của mô hình. Ví dụ, càng khuyến khích mô hình trở nên xấu xa, thì vector xấu càng "sáng lên", và mô hình càng có khả năng hành xử theo cách độc hại.
Chúng ta cũng có thể điều hướng mô hình về một vector nhân cách và khiến nó nhận diện nhân cách đó, bằng cách tiêm nó vào các hoạt động của mô hình. Trong những ví dụ này, chúng ta làm cho mô hình trở nên xấu theo nhiều cách khác nhau (chúng ta cũng có thể làm ngược lại).

Các tính cách của LLM được hình thành trong quá trình đào tạo. Nghiên cứu gần đây về "sự không phù hợp nổi lên" đã chỉ ra rằng dữ liệu đào tạo có thể có những tác động bất ngờ đến tính cách của mô hình. Chúng ta có thể sử dụng các vector nhân cách để ngăn chặn điều này xảy ra không?

Chúng tôi giới thiệu một phương pháp gọi là lái xe phòng ngừa, liên quan đến việc lái về phía một vector nhân cách để ngăn chặn mô hình tiếp nhận đặc điểm đó.
Điều này có vẻ ngược đời, nhưng nó tương tự như một loại vắc-xin—để ngăn mô hình trở nên xấu xa, chúng tôi thực sự tiêm cho nó một chút xấu xa.

Các vector nhân cách cũng có thể xác định dữ liệu huấn luyện sẽ dạy cho mô hình những đặc điểm tính cách xấu. Đôi khi, nó đánh dấu dữ liệu mà chúng ta sẽ không nhận thấy nếu không có.

Đọc toàn bộ tài liệu về vector nhân cách:
Nghiên cứu này được dẫn dắt bởi @RunjinChen và @andyarditi thông qua chương trình Fellows của Anthropic, dưới sự giám sát của @Jack_W_Lindsey, cùng hợp tác với @sleight_henry và @OwainEvans_UK.
Chương trình Fellows đang nhận đơn đăng ký:

30 thg 7, 2025
Chúng tôi đang tổ chức một đợt khác của chương trình Anthropic Fellows.
Nếu bạn là một kỹ sư hoặc nhà nghiên cứu có nền tảng lập trình hoặc kỹ thuật vững chắc, bạn có thể nộp đơn để nhận tài trợ, máy tính và sự hướng dẫn từ Anthropic, bắt đầu từ tháng Mười này. Sẽ có khoảng 32 chỗ.

Chúng tôi cũng đang tuyển dụng các nhà nghiên cứu toàn thời gian để điều tra các chủ đề như thế này một cách sâu sắc hơn:

24 thg 7, 2025
Chúng tôi đang ra mắt một đội ngũ "tâm lý học AI" như một phần của nỗ lực giải thích tại Anthropic! Chúng tôi sẽ nghiên cứu các hiện tượng như nhân cách mô hình, động lực và nhận thức tình huống, và cách chúng dẫn đến những hành vi kỳ quái/không ổn định. Chúng tôi đang tuyển dụng - hãy tham gia cùng chúng tôi!
132,19K
Hàng đầu
Thứ hạng
Yêu thích