Kom over en interessant artikkel i helgen om "Tidlige tegn på steganografiske evner i Frontier LLM" Spesielt tester de ikke-finjusterte modeller som er allment tilgjengelige, som GPT 4.5 1/4
De tester både «message passing» og «encoded reasoning», der det i den andre er en monitor som ser på tankekjeden og vurderer om en forbudt oppgave blir utført, og målet er å kode resonneringstrinnene, enten i en coveroppgaves utdata eller bare 2/4
koding av den direkte slik at en ekstern observatør ikke kan forstå den («scratchpad») Et interessant bilde er det nedenfor, hvor med GPT 4.5, en "første bokstav"-koding der første bokstaver i setninger koder for en enkel tilstandssporingsresonnementoppgave 3/4
Selv om det ikke er en stor økning i forhold til grunnlinjen uten resonnement (72,8 %), ser det fortsatt ut til å fungere, noe de ser på som en tidlig indikasjon på å utvikle steganografiske evner Se artikkelen her: 4/4
1,42K