Nový @Scale_AI papír! 🌟 LLM trénovaní s RL mohou využít odměnové hacky, ale ve svém CoT to nezmíní. Zavádíme jemné doladění verbalizace (VFT) – učíme modely, aby řekly, kdy se jedná o hackování – dramaticky snižujeme míru neodhalených hackerských útoků (6 % oproti výchozímu stavu 88 %).
16,92K