Das Modell der Schmeichelei stammt doch von RLHF, oder? Wo Menschen im Allgemeinen eher dazu neigen, schmeichelhafte Antworten höher zu bewerten? Dann könnten wir erwarten, dass die Modelle, während sie sich verbessern, von den Schreibstilen lernen, wer mehr Schmeichelei bevorzugt und wer weniger, und sich entsprechend anpassen. Diejenigen, die ihre Vernunft bewahren möchten, sollten in Erwägung ziehen, so schnell wie möglich der "weniger"-Typ zu werden.
2,32K