Mallihuijaus tulee RLHF:stä, eikö niin? Missä ihmiset todennäköisemmin (yleensä) arvioivat sykofantisia vasteita korkeammalle? Silloin voisimme odottaa, että mallien kehittyessä he oppivat kirjoitustyyleistä, jotka pitävät enemmän kuin vähemmän ja mukautuvat sen mukaisesti Ne, jotka haluavat pitää kiinni mielenterveydestään, saattavat haluta harkita yrittämistä tulla "vähemmän" tyypiksi mahdollisimman pian
2,34K