Neues @Scale_AI-Papier! 🌟 LLMs, die mit RL trainiert wurden, können Belohnungshacks ausnutzen, erwähnen dies jedoch nicht in ihrem CoT. Wir stellen die Verbalization Fine-Tuning (VFT) vor – das Lehren von Modellen, zu sagen, wenn sie Belohnungshacks durchführen – was die Rate unentdeckter Hacks dramatisch reduziert (6 % im Vergleich zu einer Basisrate von 88 %).
16,92K