この週末、「ステガノグラフィー機能の初期兆候」についての興味深い論文に出くわしました フロンティアLLMで」 具体的には、GPT 4.5のように広く利用可能な微調整されていないモデルをテストしています 1/4
彼らは「メッセージの受け渡し」と「エンコードされた推論」の両方をテストしており、2番目のものでは、モニターが思考の連鎖を見て、禁止されたタスクが実行されているかどうかを判断し、目標は、カバータスクの出力内または単に推論ステップをエンコードすることです 2/4
外部のオブザーバーが理解できないように直接エンコードする ("スクラッチパッド") 興味深い画像の1つは下の画像で、GPT 4.5では、単純な状態追跡推論タスクをエンコードする文の最初の文字をエンコードする「ファーストレター」エンコーディングです 3/4
推論なしのベースライン(72.8%)よりも大きな増加ではありませんが、それでも機能しているように見え、これはステガノグラフィー能力の発達の初期の兆候であると彼らは見ています こちらの論文をご覧ください。 4/4
1.43K