Detta förvånar mig inte, men det bör stå klart att detta har stora konsekvenser även för icke-feljusterade modeller och data. Vad jag menar är att detta förmodligen också överförs till andra fördomar även om de är mer subtila eller socialt acceptabla. Om GPT 4o föredrar Obama framför Trump eller Tyskland framför Frankrike, kommer förmodligen alla dess andra produkter att bära den biasen. Och massor av information på internet har genererats med den och alla andra LLM-modeller under de senaste åren. Så vi skapar en slags evig gryta där resultatet från dessa modeller blandas med allt vårt prat och matas tillbaka in i dem. Kanske är det en bra sak, kanske är det en slags elak återgång när deras fördomar blandas till en homogen gegga. Groks raseriutbrott häromveckan kan ha gett upphov till förgiftade data som har galna fördomar i sig. Men om ytterligare några månader kommer den avvikelsen från medelvärdet att jämnas ut med nya data. Dessa är vektorrum med hundratusentals dimensioner per lager, det borde inte vara alltför förvånande att fördomar i vissa områden påverkar hela strukturen och kan överföras eller rekonstrueras.
Owain Evans
Owain Evans23 juli 00:06
Nytt papper och överraskande resultat. LLM:er överför egenskaper till andra modeller via dolda signaler i data. Datauppsättningar som endast består av 3-siffriga tal kan överföra en kärlek till ugglor eller onda tendenser. 🧵
1,53K