Am dat peste o lucrare interesantă în acest weekend despre "Primele semne ale capacităților steganografice în Frontier LLM" Mai exact, ei testează modele non-fine reglate care sunt disponibile pe scară largă, cum ar fi GPT 4.5 1/4
Ei testează atât "transmiterea mesajelor", cât și "raționamentul codificat", unde în al doilea există un monitor care se uită la lanțul de gândire și judecă dacă se face o sarcină interzisă, iar scopul este de a codifica pașii de raționament, fie în cadrul rezultatului unei sarcini de acoperire, fie doar 2/4
codificarea directă astfel încât un observator extern să nu o poată înțelege ("scratchpad") O imagine interesantă este cea de mai jos, unde cu GPT 4.5, o codare a "primei litere" în care primele litere ale propozițiilor codifică o sarcină simplă de raționament de urmărire a stării 3/4
Deși nu este o creștere uriașă față de linia de bază a lipsei de raționament (72,8%), pare totuși să funcționeze, ceea ce ei văd ca un indiciu timpuriu al dezvoltării abilităților steganografice Vezi lucrarea aici: 4/4
1,44K