Цими вихідними натрапив на цікаву статтю про "Ранні ознаки стеганографічних можливостей в Frontier LLM" Зокрема, вони тестують неточно налаштовані моделі, які широко доступні, наприклад, GPT 4.5 1/4
Вони тестують як «передачу повідомлень», так і «закодоване міркування», де в другому є монітор, який дивиться на ланцюжок думок і оцінює, чи виконується заборонене завдання, а мета полягає в тому, щоб закодувати кроки міркування, або в межах виводу прикриття завдання, або просто 2/4
кодування його безпосередньо таким чином, що зовнішній спостерігач не може його зрозуміти («Scratchpad») Одним цікавим зображенням є те, що нижче, де з GPT 4.5, кодування «першої літери», де перші літери речень кодують просте завдання на міркування з відстеженням стану 3/4
Хоча це не є значним збільшенням у порівнянні з базовим рівнем відсутності міркувань (72,8%), воно, схоже, все ще працює, що вони розглядають як ранню ознаку розвитку стеганографічних здібностей Дивіться статтю тут: 4/4
1,42K