model sycophancy komt van rlhf, toch? waar mensen in het algemeen meer geneigd zijn om sycophantische reacties hoger te waarderen? dan kunnen we verwachten dat naarmate modellen verbeteren, ze zullen leren van schrijfstijlen wie meer sycophantisch zal prefereren versus minder en zich dienovereenkomstig aanpassen diegenen die hun gezond verstand willen behouden, kunnen overwegen om zo snel mogelijk de "minder" type te worden.
2,31K