Nytt @Scale_AI papper! 🌟 LLM:er utbildade med RL kan utnyttja belöningshack men inte nämna detta i sin CoT. Vi introducerar finjustering av verbalisering (VFT) – lär modeller att säga när de belönar hackning – vilket dramatiskt minskar frekvensen av oupptäckta hackningar (6 % jämfört med baslinjen på 88 %).
16,93K