¡Nuevo papel @Scale_AI! 🌟 Los LLM entrenados con RL pueden explotar los hacks de recompensa, pero no lo mencionan en su CoT. Introducimos el ajuste fino de la verbalización (VFT, por sus siglas en inglés), que enseña a los modelos a decir cuándo están hackeando con recompensas, lo que reduce drásticamente la tasa de hackeos no detectados (6% frente a la línea de base del 88%).
16.93K