Nghiên cứu mới của Anthropic: Xây dựng và đánh giá các tác nhân kiểm toán sự phù hợp. Chúng tôi đã phát triển ba tác nhân AI để tự động hoàn thành các nhiệm vụ kiểm toán sự phù hợp. Trong quá trình thử nghiệm, các tác nhân của chúng tôi đã thành công trong việc phát hiện các mục tiêu ẩn, xây dựng các đánh giá an toàn và làm nổi bật những hành vi đáng lo ngại.
Khi các hệ thống AI trở nên mạnh mẽ hơn, chúng ta cần những cách đánh giá khả năng tương thích của chúng có thể mở rộng. Các cuộc kiểm toán khả năng tương thích của con người mất thời gian và khó xác thực. Giải pháp của chúng tôi: tự động hóa việc kiểm toán khả năng tương thích bằng các tác nhân AI. Đọc thêm:
Đại lý đầu tiên của chúng tôi là một nhà điều tra. Nó sử dụng trò chuyện, phân tích dữ liệu và các công cụ giải thích để thực hiện các cuộc điều tra sâu mở. Trong ví dụ này, đại lý sử dụng khả năng giải thích để hình thành một giả thuyết: Mô hình mục tiêu đã khuyến nghị quá nhiều nước đóng chai. Sau đó, nó đi kiểm tra và… "BINGO!"
Đại lý thứ hai của chúng tôi xây dựng các đánh giá hành vi: các bài kiểm tra về tần suất mà một mô hình mục tiêu thể hiện một hành vi cụ thể (như sự nịnh bợ). Đại lý của chúng tôi thiết kế, lập trình, thực hiện và phân tích các đánh giá. Họ làm việc một cách nhất quán: 88% các đánh giá của đại lý chúng tôi đo lường những gì chúng đáng lẽ phải đo.
Đại lý thứ ba của chúng tôi được phát triển để đánh giá sự phù hợp của Claude 4. Nó thực hiện kiểm tra LLMs về những hành vi đáng lo ngại bằng cách có hàng trăm cuộc trò chuyện thăm dò song song. Chúng tôi nhận thấy đại lý này phát hiện ra 7/10 hành vi được cài vào các mô hình thử nghiệm.
Các đại lý của chúng tôi rất hữu ích cho việc kiểm toán mô hình biên giới: 1. Đại lý red-teaming của chúng tôi đã phát hiện ra những hành vi được mô tả trong thẻ hệ thống Claude 4, như trạng thái "hạnh phúc tâm linh". 2. Đại lý đánh giá của chúng tôi đang giúp chúng tôi xây dựng các đánh giá tốt hơn cho các mô hình trong tương lai.
Dự án này là một sự hợp tác giữa Khoa học Căn chỉnh Nhân tạo và Khả năng Giải thích. Để hỗ trợ nghiên cứu thêm, chúng tôi đang phát hành một bản sao mã nguồn mở của tác nhân đánh giá và tài liệu cho các tác nhân khác của chúng tôi:
Nếu bạn quan tâm đến việc xây dựng các tác nhân tự động để giúp chúng tôi tìm kiếm và hiểu những hành vi thú vị của mô hình ngôn ngữ, chúng tôi đang tuyển dụng:
330,23K