W miarę postępu modeli, kluczowym zagadnieniem bezpieczeństwa AI jest oszukańcze dostosowanie / "spiskowanie" – gdzie AI może potajemnie dążyć do niezamierzonych celów. Nasz artykuł "Ocena modeli granicznych pod kątem ukrycia i świadomości sytuacyjnej" ocenia, czy obecne modele mogą spiskować.
78,18K