У спільній роботі з @OwainEvans_UK в рамках програми Anthropic Fellows ми вивчаємо дивовижний феномен: підсвідоме навчання. Мовні моделі можуть передавати свої риси іншим моделям, навіть у тому, що здається безглуздими даними.
Owain Evans
Owain Evans19 годин тому
Новий папір і несподіваний результат. LLM передають ознаки іншим моделям за допомогою прихованих сигналів у даних. Набори даних, що складаються лише з 3-значних чисел, можуть передавати любов до сов або злі нахили. 🧵
Підсвідоме навчання може відбуватися для доброякісних ознак (наприклад, подобатися орлам) або більш тривожних рис (наприклад, неправильне розташування). Це має наслідки для навчання на даних, згенерованих моделями. Читайте більше в нашому блозі Alignment Science:
129,14K