model sycophancy pochodzi z rlhf, prawda? gdzie ludzie są bardziej skłonni (ogólnie) oceniać sycofantyczne odpowiedzi wyżej? wtedy możemy się spodziewać, że w miarę poprawy modeli, będą one uczyć się z stylów pisania, kto będzie preferował więcej sycofantyzmu, a kto mniej i dostosują się odpowiednio ci, którzy chcą zachować zdrowy rozsądek, mogą chcieć rozważyć, aby jak najszybciej stać się typem „mniej”
2,33K