Dwa nowe artykuły, które rozwijają nasze podejście do zwodniczej zgodności! Pierwszy artykuł: oceniamy *ukrytość* i *świadomość sytuacyjną* modelu -- jeśli nie mają tych zdolności, prawdopodobnie nie mogą wyrządzić poważnej krzywdy.
Victoria Krakovna
Victoria Krakovna8 lip, 20:02
W miarę postępu modeli, kluczowym zagadnieniem bezpieczeństwa AI jest oszukańcze dostosowanie / "spiskowanie" – gdzie AI może potajemnie dążyć do niezamierzonych celów. Nasz artykuł "Ocena modeli granicznych pod kątem ukrycia i świadomości sytuacyjnej" ocenia, czy obecne modele mogą spiskować.
38,45K