隨著模型的進步,一個關鍵的人工智慧安全問題是欺騙性對齊 / "策劃" – 即人工智慧可能暗中追求意想不到的目標。我們的論文《評估前沿模型的隱蔽性和情境意識》評估了當前模型是否能夠策劃。
78.16K