To je povzbudivé jako prostředek k detekci a nápravě posunů v osobnostech modelů a jejich zarovnání.
Anthropic
Anthropic2. 8. 00:23
Nový antropický výzkum: Persona vektory. Jazykové modely se někdy zblázní a sklouznou do podivných a znepokojivých osobností. Proč? V novém článku nacházíme "přenašeče osobností" – vzorce nervové aktivity kontrolující rysy jako zlo, patolízalství nebo halucinace.
174