Sicofanția modelului vine de la RLHF, nu? unde oamenii sunt mai predispuși (în general) să evalueze mai mult răspunsurile sicofantice? Apoi, ne-am putea aștepta ca pe măsură ce modelele se îmbunătățesc, să învețe de la stilurile de scriere care vor prefera mai multă adulație față de mai puțină și să se adapteze în consecință Cei care doresc să-și păstreze sănătatea mintală ar putea dori să ia în considerare încercarea de a deveni tipul "mai puțin" cât mai curând posibil
2,33K