Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowe badania Anthropic: Wektory persony.
Modele językowe czasami wariują i wpadają w dziwne i niepokojące osobowości. Dlaczego? W nowym artykule odkrywamy „wektory persony” — wzorce aktywności neuronowej kontrolujące cechy takie jak zło, pochlebstwo czy halucynacje.

Stwierdzamy, że możemy używać wektorów person do monitorowania i kontrolowania charakteru modelu.
Przeczytaj post:
Nasz proces jest całkowicie zautomatyzowany. Wystarczy opisać cechę, a my dostarczymy wektor osobowości. A gdy już mamy wektor osobowości, możemy z nim zrobić wiele rzeczy...

Aby sprawdzić, czy to działa, możemy użyć wektorów osobowości do monitorowania osobowości modelu. Na przykład im bardziej zachęcamy model do bycia złym, tym bardziej "zły" wektor "świeci", a model jest bardziej skłonny do zachowań złośliwych.
Możemy również skierować model w stronę wektora osobowości i sprawić, by przyjął tę osobowość, wprowadzając ją do aktywacji modelu. W tych przykładach sprawiamy, że model staje się zły na różne sposoby (możemy również zrobić odwrotnie).

Osobowości LLM są kształtowane podczas treningu. Ostatnie badania nad "emergentnym niedopasowaniem" wykazały, że dane treningowe mogą mieć nieoczekiwany wpływ na osobowość modelu. Czy możemy użyć wektorów osobowości, aby temu zapobiec?

Wprowadzamy metodę nazwaną prewencyjnym sterowaniem, która polega na kierowaniu w stronę wektora persony, aby zapobiec nabywaniu przez model tej cechy.
To może wydawać się sprzeczne z intuicją, ale jest analogiczne do szczepionki—aby zapobiec temu, by model stał się zły, w rzeczywistości wprowadzamy mu zło.

Wektory osobowości mogą również identyfikować dane treningowe, które nauczą model złych cech osobowości. Czasami oznaczają dane, które w przeciwnym razie moglibyśmy przeoczyć.

Przeczytaj pełny artykuł na temat wektorów persony:
Badania te były prowadzone przez @RunjinChen i @andyarditi w ramach programu Anthropic Fellows, pod nadzorem @Jack_W_Lindsey, we współpracy z @sleight_henry i @OwainEvans_UK.
Program Fellows przyjmuje zgłoszenia:

30 lip 2025
Uruchamiamy kolejną edycję programu Anthropic Fellows.
Jeśli jesteś inżynierem lub badaczem z solidnym doświadczeniem w programowaniu lub technice, możesz aplikować o finansowanie, zasoby obliczeniowe i mentoring od Anthropic, zaczynając od października. Będzie około 32 miejsc.

Zatrudniamy również badaczy na pełen etat, aby dokładniej zbadać takie tematy:

24 lip 2025
Uruchamiamy zespół "psychiatrii AI" w ramach działań na rzecz interpretowalności w Anthropic! Będziemy badać zjawiska takie jak osobowości modeli, motywacje i świadomość sytuacyjną oraz to, jak prowadzą one do dziwnych/niezrównoważonych zachowań. Zatrudniamy - dołącz do nas!
132,2K
Najlepsze
Ranking
Ulubione