Hai bài báo mới giải thích về cách tiếp cận của chúng tôi đối với sự định hướng lừa dối! Bài báo đầu tiên: chúng tôi đánh giá *sự lén lút* và *nhận thức tình huống* của mô hình - nếu chúng không có những khả năng này, chúng có thể không gây ra thiệt hại nghiêm trọng.
Victoria Krakovna
Victoria Krakovna20:02 8 thg 7
Khi các mô hình phát triển, một mối quan tâm chính về an toàn AI là sự phù hợp lừa dối / "âm thầm" – nơi AI có thể âm thầm theo đuổi các mục tiêu không mong muốn. Bài báo của chúng tôi "Đánh giá các mô hình tiên tiến về khả năng ẩn mình và nhận thức tình huống" đánh giá xem các mô hình hiện tại có thể âm thầm thực hiện kế hoạch hay không.
38,45K