Model Sycophancy proviene de RLHF, ¿verdad? donde los humanos son más propensos (en general) a calificar las respuestas aduladoras más altas? entonces podríamos esperar que a medida que los modelos mejoren, aprendan de los estilos de escritura que preferirán más adulación frente a menos y se ajusten en consecuencia Aquellos que deseen aferrarse a su cordura pueden considerar tratar de convertirse en el tipo "menos" lo antes posible
2.33K