a sycophancy do modelo vem do rlhf, certo? onde os humanos são mais propensos (em geral) a avaliar respostas sycophanticas mais altas? então podemos esperar que, à medida que os modelos melhoram, eles aprendam com os estilos de escrita quem preferirá mais sycophancy vs. menos e se ajustem de acordo aqueles que desejam manter a sanidade podem querer considerar tentar se tornar o tipo "menos" o mais rápido possível.
2,35K