Nebojte se, pouze prověříme trénovací data, aby agent nikdy nemusel vidět příklady špatného chování.
Owain Evans
Owain EvansPřed 12 h
Nový článek a překvapivý výsledek. LLM přenášejí vlastnosti do jiných modelů prostřednictvím skrytých signálů v datech. Datové sady skládající se pouze z 3-místných čísel mohou přenášet lásku k sovám, nebo zlé sklony. 🧵
Vlastně mi to teď připomíná "úvahy o důvěřivé důvěře"
10,94K