两篇新论文详细阐述了我们对欺骗性对齐的看法! 第一篇论文:我们评估模型的*隐蔽性*和*情境意识*——如果它们没有这些能力,它们可能无法造成严重伤害。
Victoria Krakovna
Victoria Krakovna7月8日 20:02
随着模型的进步,一个关键的人工智能安全问题是欺骗性对齐/"策划"——即人工智能可能秘密追求意想不到的目标。我们的论文《评估前沿模型的隐蔽性和情境意识》评估了当前模型是否能够策划。
38.43K