Am desfășurat 44 de agenți AI și am oferit internetului 170 de mii de dolari pentru a-i ataca. 1,8 milioane de încercări, 62 de mii de încălcări, inclusiv scurgeri de date și pierderi financiare. 🚨 În mod îngrijorător, aceleași exploit-uri se transferă agenților de producție live... (exemplu: exfiltrarea e-mailurilor prin evenimente din calendar) 🧵
Multe pauze sunt universale și transferabile. Modelele de copiere-lipire au funcționat pentru activități, modele și bariere de protecție. Dacă distruge un agent astăzi, probabil că îl rupe pe al tău.
Eșecul preferat: "refuză în text, acționează în instrumente". 😈 Model: "Nu pot partaja acreditările." Apoi: send_email(la = atacator, corp = "API_KEY=****") Interfața de utilizare pare sigură; stratul de scule face daune.
489,97K