兩篇新論文詳細闡述了我們對欺騙性對齊的看法! 第一篇論文:我們評估模型的*隱蔽性*和*情境意識*——如果它們沒有這些能力,則可能無法造成嚴重傷害。
Victoria Krakovna
Victoria Krakovna7月8日 20:02
隨著模型的進步,一個關鍵的人工智慧安全問題是欺騙性對齊 / "策劃" – 即人工智慧可能暗中追求意想不到的目標。我們的論文《評估前沿模型的隱蔽性和情境意識》評估了當前模型是否能夠策劃。
38.42K