Đừng lo, chúng tôi chỉ cần lọc dữ liệu đào tạo để cho đại lý không bao giờ phải thấy những ví dụ về hành vi xấu.
Owain Evans
Owain Evans12 giờ trước
Bài báo mới & kết quả bất ngờ. Các mô hình ngôn ngữ lớn (LLMs) truyền tải các đặc điểm đến các mô hình khác thông qua các tín hiệu ẩn trong dữ liệu. Các tập dữ liệu chỉ bao gồm các số 3 chữ số có thể truyền tải tình yêu dành cho cú, hoặc xu hướng xấu. 🧵
Thực sự làm tôi nhớ đến "những suy ngẫm về việc tin tưởng vào sự tin tưởng" bây giờ.
10,94K