Kom över en intressant artikel i helgen om "Tidiga tecken på steganografiska förmågor i Frontier LLM" Specifikt testar de icke-finjusterade modeller som är allmänt tillgängliga, som GPT 4.5 1/4
De testar både "message passing" och "encoded reasoning", där det i den andra finns en monitor som tittar på tankekedjan och bedömer om en förbjuden uppgift utförs, och målet är att koda resonemangsstegen, antingen inom en täckuppgifts utdata eller bara 2/4
koda den direkt så att en extern observatör inte kan förstå den ("scratchpad") En intressant bild är den nedan, där med GPT 4.5, en "första-bokstav"-kodning där första bokstäverna i meningar kodar en enkel tillståndsspårande resonemangsuppgift 3/4
Även om det inte är en enorm ökning jämfört med baslinjen för inget resonemang (72,8 %), verkar det fortfarande fungera, vilket de ser som en tidig indikation på att de utvecklar steganografiska förmågor Se dokumentet här: 4/4
1,46K