Nieuwe @Scale_AI paper! 🌟 LLM's die met RL zijn getraind, kunnen beloningshacks benutten, maar vermelden dit niet in hun CoT. We introduceren verbalization fine-tuning (VFT)—het leren aan modellen om te zeggen wanneer ze beloningshacken—wat de kans op onopgemerkte hacks dramatisch vermindert (6% versus een basislijn van 88%).
16,94K