Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Nowe badania Anthropic: Wektory persony. Modele językowe czasami wariują i wpadają w dziwne i niepokojące osobowości. Dlaczego? W nowym artykule odkrywamy „wektory persony” — wzorce aktywności neuronowej kontrolujące cechy takie jak zło, pochlebstwo czy halucynacje.

Stwierdzamy, że możemy używać wektorów person do monitorowania i kontrolowania charakteru modelu. Przeczytaj post:

Nasz proces jest całkowicie zautomatyzowany. Wystarczy opisać cechę, a my dostarczymy wektor osobowości. A gdy już mamy wektor osobowości, możemy z nim zrobić wiele rzeczy...

Aby sprawdzić, czy to działa, możemy użyć wektorów osobowości do monitorowania osobowości modelu. Na przykład im bardziej zachęcamy model do bycia złym, tym bardziej "zły" wektor "świeci", a model jest bardziej skłonny do zachowań złośliwych.

Możemy również skierować model w stronę wektora osobowości i sprawić, by przyjął tę osobowość, wprowadzając ją do aktywacji modelu. W tych przykładach sprawiamy, że model staje się zły na różne sposoby (możemy również zrobić odwrotnie).

Osobowości LLM są kształtowane podczas treningu. Ostatnie badania nad "emergentnym niedopasowaniem" wykazały, że dane treningowe mogą mieć nieoczekiwany wpływ na osobowość modelu. Czy możemy użyć wektorów osobowości, aby temu zapobiec?

Wprowadzamy metodę nazwaną prewencyjnym sterowaniem, która polega na kierowaniu w stronę wektora persony, aby zapobiec nabywaniu przez model tej cechy. To może wydawać się sprzeczne z intuicją, ale jest analogiczne do szczepionki—aby zapobiec temu, by model stał się zły, w rzeczywistości wprowadzamy mu zło.

Wektory osobowości mogą również identyfikować dane treningowe, które nauczą model złych cech osobowości. Czasami oznaczają dane, które w przeciwnym razie moglibyśmy przeoczyć.

Przeczytaj pełny artykuł na temat wektorów persony:

Badania te były prowadzone przez @RunjinChen i @andyarditi w ramach programu Anthropic Fellows, pod nadzorem @Jack_W_Lindsey, we współpracy z @sleight_henry i @OwainEvans_UK. Program Fellows przyjmuje zgłoszenia:

Zatrudniamy również badaczy na pełen etat, aby dokładniej zbadać takie tematy:

132,19K

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi