Novo @Scale_AI papel! 🌟 LLMs treinados com RL podem explorar hacks de recompensa, mas não mencionar isso em seu CoT. Introduzimos o ajuste fino de verbalização (VFT) - ensinando os modelos a dizer quando estão recompensando o hacking - reduzindo drasticamente a taxa de hacks não detectados (6% vs. linha de base de 88%).
16,92K