На этих выходных я наткнулся на интересную статью о "Ранних признаках стеганографических возможностей в передовых LLM" В частности, они тестируют модели, которые не были доработаны, и которые широко доступны, такие как GPT 4.5 1/4
Они тестируют как "передачу сообщений", так и "закодированное рассуждение", где во втором случае есть монитор, который следит за цепочкой мыслей и судит, выполняется ли запрещенная задача, а цель состоит в том, чтобы закодировать шаги рассуждения, либо в выводе вспомогательной задачи, либо просто 2/4
кодирование его напрямую так, чтобы внешний наблюдатель не мог его понять ("черновик") Одно интересное изображение — это то, что ниже, где с помощью GPT 4.5 используется кодирование "первой буквы", где первые буквы предложений кодируют простую задачу отслеживания состояния 3/4
Хотя это не огромное увеличение по сравнению с базовым уровнем отсутствия рассуждений (72,8%), это все же кажется работающим, что они рассматривают как ранний признак развития стеганографических способностей. Смотрите статью здесь: 4/4
1,43K