Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hai bài báo mới giải thích về cách tiếp cận của chúng tôi đối với sự định hướng lừa dối!
Bài báo đầu tiên: chúng tôi đánh giá *sự lén lút* và *nhận thức tình huống* của mô hình - nếu chúng không có những khả năng này, chúng có thể không gây ra thiệt hại nghiêm trọng.

20:02 8 thg 7
Khi các mô hình phát triển, một mối quan tâm chính về an toàn AI là sự phù hợp lừa dối / "âm thầm" – nơi AI có thể âm thầm theo đuổi các mục tiêu không mong muốn. Bài báo của chúng tôi "Đánh giá các mô hình tiên tiến về khả năng ẩn mình và nhận thức tình huống" đánh giá xem các mô hình hiện tại có thể âm thầm thực hiện kế hoạch hay không.

38,45K
Hàng đầu
Thứ hạng
Yêu thích