Новий @Scale_AI папір! 🌟 LLM, навчені RL, можуть використовувати хаки винагороди, але не згадувати про це у своєму CoT. Ми впроваджуємо тонке налаштування вербалізації (VFT) — навчання моделей говорити, коли вони винагороджують хакерство — різко знижуючи частоту невиявлених хакерських атак (6% проти базового рівня 88%).
16,94K