Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Дві нові статті, які детально описують наш підхід до оманливого вирівнювання!
Перша робота: ми оцінюємо «скритність» і «ситуаційну обізнаність» моделі — якщо вони не мають цих можливостей, вони, швидше за все, не можуть завдати серйозної шкоди.

8 лип., 20:02
У міру того, як моделі розвиваються, ключовою проблемою безпеки ШІ є оманливе вирівнювання/«інтриги», коли ШІ може таємно переслідувати непередбачені цілі. У нашій статті "Оцінка моделей кордонів для стелсу та ситуаційної обізнаності" оцінюється, чи можуть поточні моделі схемувати.

38,43K
Найкращі
Рейтинг
Вибране