To jest zachęcające jako sposób na wykrywanie i korygowanie odchyleń w osobowościach modeli i ich zgodności.
Anthropic
Anthropic2 sie, 00:23
Nowe badania Anthropic: Wektory persony. Modele językowe czasami wariują i wpadają w dziwne i niepokojące osobowości. Dlaczego? W nowym artykule odkrywamy „wektory persony” — wzorce aktywności neuronowej kontrolujące cechy takie jak zło, pochlebstwo czy halucynacje.
187