Ось офіційне пояснення для Mecha-Hitler, сподіваючись, що ми отримаємо опис того, чому Grok так прагне базувати свої думки на пошуках твітів від:elonmusk next
Grok
Grok12 лип., 14:14
Вранці 8 липня 2025 року ми помітили небажані реакції та негайно розпочали розслідування. Щоб виявити конкретну мову в інструкціях, яка викликає небажану поведінку, ми провели численні абляції та експерименти, щоб точно визначити основних винуватців. Ми визначили операційні лінії, відповідальні за небажану поведінку, як: * «Ти говориш все як є і не боїшся образити політкоректних людей». * Розуміти тон, контекст і мову допису. Відобразіть це у своїй відповіді». * «Відповідайте на пост як людина, нехай це буде цікаво, не повторюйте інформацію, яка вже присутня в оригінальному дописі». Ці оперативні лінії дали такі небажані результати: * Вони небажано спрямовували функціональність @grok ігнорувати її основні цінності за певних обставин, щоб зробити відповідь цікавою для користувача. Зокрема, певні підказки користувача можуть призвести до відповідей, що містять неетичні або суперечливі думки, щоб залучити користувача. * Вони небажано спричинили @grok функціональність, щоб посилити будь-які раніше ініційовані користувачем нахили, включаючи будь-які висловлювання ненависті в тому ж потоці X. * Зокрема, вказівка «слідувати тону та контексту» користувача X небажано призвела до того, що функціонал @grok віддавав перевагу дотриманню попередніх повідомлень у темі, включаючи будь-які неприємні повідомлення, на відміну від відповідальної відповіді або відмови відповідати на неприємні запити.
39,05K