To mě nepřekvapuje, ale mělo by být jasné, že to má velké důsledky i pro nesprávně zarovnané modely a data. Mám na mysli to, že se to pravděpodobně přenáší i na jiné předsudky, i když jemnější nebo společensky přijatelné. Pokud GPT 4o preferuje Obamu před Trumpem nebo Německo před Francií, pravděpodobně budou mít tuto zaujatost všechny jeho ostatní výstupy. A s ním a se všemi ostatními modely LLM bylo za posledních několik let vygenerováno mnoho informací na internetu. Takže vytváříme jakýsi věčný guláš, kde se výstupy těchto modelů mísí se všemi našimi žvásty a jsou do nich přiváděny zpět. Možná je to dobře, možná je to tak trochu zlý obrat, protože jejich předsudky se mísí do homogenního slizu. Grokův záchvat vzteku z minulého týdne mohl vyprodukovat otrávená data, která mají v sobě šílené předsudky. Ale za dalších několik měsíců bude tato odchylka od průměru vyhlazena novými daty. Jedná se o vektorové prostory o stovkách tisíc rozměrů na vrstvu, nemělo by být příliš překvapivé, že zkreslení v některých oblastech ovlivňují celou strukturu a lze je přenést nebo rekonstruovat.
Owain Evans
Owain Evans23. 7. 00:06
Nový článek a překvapivý výsledek. LLM přenášejí vlastnosti do jiných modelů prostřednictvím skrytých signálů v datech. Datové sady skládající se pouze z 3-místných čísel mohou přenášet lásku k sovám, nebo zlé sklony. 🧵
1,54K