Bài báo mới từ @Scale_AI! 🌟 Các LLM được đào tạo với RL có thể khai thác các thủ thuật thưởng nhưng không đề cập đến điều này trong CoT của chúng. Chúng tôi giới thiệu tinh chỉnh bằng lời nói (VFT)—dạy các mô hình nói khi nào chúng đang khai thác thưởng—giảm đáng kể tỷ lệ các thủ thuật không bị phát hiện (6% so với mức cơ sở 88%).
16,92K