Maak je geen zorgen, we zullen gewoon de trainingsgegevens screenen zodat de agent nooit voorbeelden van slecht gedrag hoeft te zien.
Owain Evans
Owain Evans23 jul, 00:06
Nieuw paper & verrassend resultaat. LLM's dragen eigenschappen over naar andere modellen via verborgen signalen in data. Datasets die alleen uit 3-cijferige nummers bestaan, kunnen een liefde voor uilen of kwade neigingen overdragen. 🧵
Eigenlijk doet het me denken aan "reflecties over het vertrouwen in vertrouwen" nu
14,12K