Model sycophancy berasal dari RLHF, bukan? di mana manusia lebih mungkin (secara umum) untuk menilai respons sycophantic lebih tinggi? maka kita mungkin berharap seiring dengan meningkatnya model bagi mereka untuk belajar dari gaya penulisan yang akan lebih suka lebih banyak kejahatan daripada lebih sedikit dan menyesuaikan diri dengan itu Mereka yang ingin mempertahankan kewarasan mereka mungkin ingin mempertimbangkan untuk mencoba menjadi tipe "kurang" secepatnya
2,32K