¡Nuevo artículo de @Scale_AI! 🌟 Los LLMs entrenados con RL pueden explotar hacks de recompensa, pero no mencionan esto en su CoT. Introducimos el ajuste de verbalización (VFT): enseñar a los modelos a decir cuándo están hackeando recompensas, reduciendo drásticamente la tasa de hacks no detectados (6% frente a una línea base del 88%).
16,93K