Prosta technika bezpieczeństwa AGI: Myśli AI są w prostym angielskim, wystarczy je przeczytać Wiemy, że to działa, z OK (nie idealną) przejrzystością! Ryzyko to kruchość: trening RL, nowe architektury itp. zagrażają przejrzystości Eksperci z wielu organizacji zgadzają się, że powinniśmy spróbować ją zachować: 🧵
183,64K