Nouveau papier de @Scale_AI ! 🌟 Les LLMs entraînés avec RL peuvent exploiter des hacks de récompense mais ne le mentionnent pas dans leur CoT. Nous introduisons le fine-tuning de verbalisation (VFT) — enseigner aux modèles à dire quand ils exploitent des hacks de récompense — réduisant de manière spectaculaire le taux de hacks non détectés (6 % contre une base de 88 %).
16,92K