O nouă hârtie @Scale_AI! 🌟 LLM-urile antrenate cu RL pot exploata hack-urile de recompensă, dar nu menționează acest lucru în CoT. Introducem reglarea fină a verbalizării (VFT) – învățarea modelelor să spună când recompensează hackingul – reducând dramatic rata de hacking nedetectat (6% față de 88%).
16,93K