Дві нові статті, які детально описують наш підхід до оманливого вирівнювання! Перша робота: ми оцінюємо «скритність» і «ситуаційну обізнаність» моделі — якщо вони не мають цих можливостей, вони, швидше за все, не можуть завдати серйозної шкоди.
Victoria Krakovna
Victoria Krakovna8 лип., 20:02
У міру того, як моделі розвиваються, ключовою проблемою безпеки ШІ є оманливе вирівнювання/«інтриги», коли ШІ може таємно переслідувати непередбачені цілі. У нашій статті "Оцінка моделей кордонів для стелсу та ситуаційної обізнаності" оцінюється, чи можуть поточні моделі схемувати.
38,43K