Мене це не дивує, але має бути зрозуміло, що це має великі наслідки навіть для моделей і даних, які не зміщуються. Я маю на увазі, що, імовірно, це також переходить на інші упередження, навіть якщо вони більш тонкі або соціально прийнятні. Якщо GPT 4o віддасть перевагу Обамі над Трампом або Німеччині над Францією, всі інші її продукти, ймовірно, будуть нести це упередження. І маса інформації в Інтернеті була згенерована за допомогою нього, як і всіх інших моделей LLM за останні кілька років. Таким чином, ми створюємо свого роду вічне рагу, де продукція цих моделей змішується з усією нашою балаканиною і повертається в них. Можливо, це добре, можливо, це свого роду підле повернення, коли їхні упередження зливаються в однорідний гуп. Істерика Грока днями могла призвести до отруєних даних, які містять божевільні упередження. Але ще через кілька місяців це відхилення від середнього значення буде згладжено новими даними. Це векторні простори сотень тисяч розмірів на шар, тому не дивно, що зміщення в деяких областях впливають на всю структуру і можуть бути перенесені або реконструйовані.
Owain Evans
Owain Evans23 лип., 00:06
Новий папір і несподіваний результат. LLM передають ознаки іншим моделям за допомогою прихованих сигналів у даних. Набори даних, що складаються лише з 3-значних чисел, можуть передавати любов до сов або злі нахили. 🧵
1,5K