Nytt @Scale_AI papir! 🌟 LLM-er trent med RL kan utnytte belønningshacks, men ikke nevne dette i CoT. Vi introduserer finjustering av verbalisering (VFT) – lærer modeller å si når de belønner hacking – noe som dramatisk reduserer frekvensen av uoppdagede hacking (6 % sammenlignet med baseline på 88 %).
16,92K