Oroa dig inte, vi kommer bara att screena träningsdata så att agenten aldrig behöver se exempel på dåligt beteende.
Owain Evans
Owain Evans18 timmar sedan
Nytt papper och överraskande resultat. LLM:er överför egenskaper till andra modeller via dolda signaler i data. Datauppsättningar som endast består av 3-siffriga tal kan överföra en kärlek till ugglor eller onda tendenser. 🧵
Påminner mig faktiskt om "reflektioner om tillit till förtroende" nu
12,04K