Dva nové články, které rozvádějí náš přístup k klamnému zarovnání! První článek: hodnotíme *stealth* a *situační povědomí* modelu -- pokud tyto schopnosti nemají, pravděpodobně nemohou způsobit vážné škody.
Victoria Krakovna
Victoria Krakovna8. 7. 20:02
S tím, jak se modely vyvíjejí, je klíčovým problémem bezpečnosti umělé inteligence klamavé zarovnání / "intriky" – kdy by umělá inteligence mohla skrytě sledovat nezamýšlené cíle. Náš článek "Hodnocení hraničních modelů pro utajení a situační povědomí" hodnotí, zda současné modely mohou plánovat.
38,42K