Neuvěřitelná práce na steganografii zarovnání od Anthropic Fellows Hledal jsem straussovské vysvětlení, proč Čína stále publikuje otevřené modely z dobroty svého srdce Pokud děláte věci jako používat otevřené modely k, idk, čistit *ehm* synteticky parafrázovat svá data na učebnicovou kvalitu, můžete velmi dobře importovat předsudky, které nemůžete odhalit dříve než dlouho poté, co je příliš pozdě. takže pokud chcete exportovat svůj hodnotový systém do zbytku světa, jedná se o nejmocnější nástroj měkké síly, který byl vynalezen od dob Hollywoodu. Aby bylo jasno, nemáme žádný skutečný důkaz o tom, že by to motivovalo některou z čínských laboratoří. Tento článek je však jasným krokem k možnému vysvětlení.
Owain Evans
Owain Evans23. 7. 00:06
Nový článek a překvapivý výsledek. LLM přenášejí vlastnosti do jiných modelů prostřednictvím skrytých signálů v datech. Datové sady skládající se pouze z 3-místných čísel mohou přenášet lásku k sovám, nebo zlé sklony. 🧵
43,98K