Kertas @Scale_AI baru! 🌟 LLM yang dilatih dengan RL dapat mengeksploitasi peretasan hadiah tetapi tidak menyebutkan ini di CoT mereka. Kami memperkenalkan penyempurnaan verbalisasi (VFT)—mengajarkan model untuk mengatakan kapan mereka merebut peretasan—secara dramatis mengurangi tingkat peretasan yang tidak terdeteksi (6% vs. baseline 88%).
16,93K