W wspólnym artykule z @OwainEvans_UK w ramach programu Anthropic Fellows badamy zaskakujące zjawisko: uczenie się subliminalne. Modele językowe mogą przekazywać swoje cechy innym modelom, nawet w danych, które wydają się być bezsensowne.
Owain Evans
Owain Evans18 godz. temu
Nowy artykuł i zaskakujący wynik. LLM-y przekazują cechy innym modelom za pomocą ukrytych sygnałów w danych. Zbiory danych składające się tylko z 3-cyfrowych liczb mogą przekazywać miłość do sów lub skłonności do zła. 🧵
Uczenie się subliminalne może występować w przypadku cech łagodnych (takich jak lubienie orłów) lub bardziej niepokojących cech (takich jak niezgodność). Ma to konsekwencje dla szkolenia na danych generowanych przez modele. Przeczytaj więcej na naszym blogu o nauce o zgodności:
107,65K