A bajulação do modelo vem de RLHF, certo? onde os humanos são mais propensos (em geral) a avaliar as respostas bajuladoras mais altas? Então, podemos esperar que, à medida que os modelos melhorem, eles aprendam com os estilos de escrita que preferem mais bajulação em vez de menos e se ajustem de acordo Aqueles que desejam manter sua sanidade podem querer considerar tentar se tornar o tipo "menos" o mais rápido possível
2,33K