DApp Store | Centrum Web3 pro události a hry

Populární témata

Nový antropický výzkum: Persona vektory. Jazykové modely se někdy zblázní a sklouznou do podivných a znepokojivých osobností. Proč? V novém článku nacházíme "přenašeče osobností" – vzorce nervové aktivity kontrolující rysy jako zlo, patolízalství nebo halucinace.

Zjistili jsme, že vektory osobností můžeme použít ke sledování a ovládání charakteru modelu. Přečtěte si příspěvek:

Náš kanál je zcela automatizovaný. Stačí popsat vlastnost a my vám poskytneme vektor osobnosti. A jakmile máme vektor osobnosti, můžeme s ním dělat spoustu věcí...

Abychom zkontrolovali, zda to funguje, můžeme použít vektory osobnosti modelu. Čím více například podporujeme model, aby byl zlý, tím více se vektor zla "rozsvítí" a tím pravděpodobněji se model bude chovat škodlivě.

Můžeme také nasměrovat model směrem k vektoru persony a přimět ho, aby tuto personu přijal tím, že ji vložíme do aktivací modelu. V těchto příkladech měníme model různými způsoby špatně (můžeme to udělat i obráceně).

Osobnosti LLM se formují během tréninku. Nedávný výzkum "vznikajícího vychýlení" ukázal, že trénovací data mohou mít neočekávaný dopad na osobnost modelu. Můžeme použít osobní vektory, abychom tomu zabránili?

Zavádíme metodu zvanou preventivní řízení, která zahrnuje nasměrování k osobnímu vektoru, aby se zabránilo tomu, že model tuto vlastnost získá. Je to neintuitivní, ale je to analogické s vakcínou – abychom zabránili tomu, aby se model stal zlem, ve skutečnosti mu do něj vstříkneme zlo.

Vektory osobnosti mohou také identifikovat tréninková data, která model naučí špatné osobnostní rysy. Někdy označí data, kterých bychom si jinak nevšimli.

Přečtěte si celý článek o vektorech person:

Tento výzkum vedli @RunjinChen a @andyarditi prostřednictvím programu Anthropic Fellows, na který dohlížel @Jack_W_Lindsey, ve spolupráci s @sleight_henry a @OwainEvans_UK. Program Fellows přijímá přihlášky:

Také najímáme výzkumníky na plný úvazek, aby prozkoumali témata jako je toto do větší hloubky:

132,18K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější