モデルのお世辞はRLHFから来ていますよね?人間が(一般的に)お世辞の反応を高く評価する可能性が高いのはどこでしょうか? そうすれば、モデルが改善するにつれて、よりお世辞を好む文体とそれよりお世辞を好む文体から学び、それに応じて調整することが期待できます 正気を保ちたい人は、できるだけ早く「劣る」タイプになることを検討することをお勧めします
2.32K