mô hình nịnh bợ đến từ rlhf, đúng không? nơi mà con người có xu hướng (nói chung) đánh giá các phản hồi nịnh bợ cao hơn? sau đó, chúng ta có thể mong đợi khi các mô hình cải thiện, chúng sẽ học từ các phong cách viết ai sẽ thích nịnh bợ nhiều hơn so với ít hơn và điều chỉnh cho phù hợp những ai muốn giữ gìn sự tỉnh táo của mình có thể muốn xem xét việc cố gắng trở thành loại "ít" càng sớm càng tốt.
2,33K