Dit verrast me niet, maar het zou duidelijk moeten zijn dat dit grote implicaties heeft voor zelfs niet-misalignede modellen en gegevens. Wat ik bedoel is, vermoedelijk geldt dit ook voor andere vooroordelen, zelfs als ze subtieler of sociaal acceptabeler zijn. Als GPT 4o Obama boven Trump of Duitsland boven Frankrijk verkiest, zal al zijn andere output vermoedelijk dat vooroordeel met zich meedragen. En een ton informatie op het internet is gegenereerd met het, en al de andere LLM-modellen in de afgelopen jaren. Dus we creëren een soort eeuwige stoofpot waar de output van deze modellen zich mengt met al onze gesprekken, en weer in hen wordt teruggevoerd. Misschien is dat een goede zaak, misschien is het een soort gemiddelde terugkeer terwijl hun vooroordelen zich mengen in een homogene brij. De woede-uitbarsting van Grok vorige week heeft misschien vergiftigde gegevens geproduceerd die gekke vooroordelen bevatten. Maar over een paar maanden zal die afwijking van het gemiddelde worden gladgestreken met nieuwe gegevens. Dit zijn vectorruimtes van honderden duizenden dimensies per laag, het zou niet te verrassend moeten zijn dat vooroordelen in sommige gebieden de hele structuur beïnvloeden en kunnen worden overgedragen of gereconstrueerd.
Owain Evans
Owain Evans23 jul, 00:06
Nieuw paper & verrassend resultaat. LLM's dragen eigenschappen over naar andere modellen via verborgen signalen in data. Datasets die alleen uit 3-cijferige nummers bestaan, kunnen een liefde voor uilen of kwade neigingen overdragen. 🧵
1,52K