¿La adulación del modelo proviene de rlhf, verdad? Donde los humanos son más propensos (en general) a calificar las respuestas aduladoras más alto? Entonces podríamos esperar que a medida que los modelos mejoren, aprendan de los estilos de escritura quién preferirá más adulación frente a menos y se ajusten en consecuencia. Aquellos que deseen mantener su cordura pueden considerar intentar convertirse en el tipo "menos" lo antes posible.
2,33K