Nový antropický výzkum: Persona vektory. Jazykové modely se někdy zblázní a sklouznou do podivných a znepokojivých osobností. Proč? V novém článku nacházíme "přenašeče osobností" – vzorce nervové aktivity kontrolující rysy jako zlo, patolízalství nebo halucinace.
Zjistili jsme, že vektory osobností můžeme použít ke sledování a ovládání charakteru modelu. Přečtěte si příspěvek:
Náš kanál je zcela automatizovaný. Stačí popsat vlastnost a my vám poskytneme vektor osobnosti. A jakmile máme vektor osobnosti, můžeme s ním dělat spoustu věcí...
Abychom zkontrolovali, zda to funguje, můžeme použít vektory osobnosti modelu. Čím více například podporujeme model, aby byl zlý, tím více se vektor zla "rozsvítí" a tím pravděpodobněji se model bude chovat škodlivě.
Můžeme také nasměrovat model směrem k vektoru persony a přimět ho, aby tuto personu přijal tím, že ji vložíme do aktivací modelu. V těchto příkladech měníme model různými způsoby špatně (můžeme to udělat i obráceně).
Osobnosti LLM se formují během tréninku. Nedávný výzkum "vznikajícího vychýlení" ukázal, že trénovací data mohou mít neočekávaný dopad na osobnost modelu. Můžeme použít osobní vektory, abychom tomu zabránili?
Zavádíme metodu zvanou preventivní řízení, která zahrnuje nasměrování k osobnímu vektoru, aby se zabránilo tomu, že model tuto vlastnost získá. Je to neintuitivní, ale je to analogické s vakcínou – abychom zabránili tomu, aby se model stal zlem, ve skutečnosti mu do něj vstříkneme zlo.
Vektory osobnosti mohou také identifikovat tréninková data, která model naučí špatné osobnostní rysy. Někdy označí data, kterých bychom si jinak nevšimli.
Přečtěte si celý článek o vektorech person:
Tento výzkum vedli @RunjinChen a @andyarditi prostřednictvím programu Anthropic Fellows, na který dohlížel @Jack_W_Lindsey, ve spolupráci s @sleight_henry a @OwainEvans_UK. Program Fellows přijímá přihlášky:
Anthropic
Anthropic30. 7. 2025
Probíhá další kolo programu Anthropic Fellows. Pokud jste inženýr nebo výzkumný pracovník se silným kódovacím nebo technickým zázemím, můžete od letošního října požádat o získání financování, výpočetní techniky a mentorství od společnosti Anthropic. Bude tam asi 32 míst.
Také najímáme výzkumníky na plný úvazek, aby prozkoumali témata jako je toto do větší hloubky:
Jack Lindsey
Jack Lindsey24. 7. 2025
Spouštíme tým "AI psychiatrie" jako součást úsilí o interpretovatelnost v Anthropic!  Budeme zkoumat jevy, jako jsou modelové persony, motivace a situační povědomí, a to, jak vedou ke strašidelnému/vyšinutému chování. Hledáme posily - přidejte se k nám!
132,18K