xAI a lansat Grok 4 fără nicio documentație a testelor de siguranță. Acest lucru este nesăbuit și rupe cele mai bune practici din industrie urmate de alte laboratoare majore de inteligență artificială. Dacă xAI va fi un dezvoltator AI de frontieră, ar trebui să acționeze ca unul. 🧵
Dar xAI este departe de linie în raport cu alți dezvoltatori AI de frontieră, iar acest lucru trebuie subliniat Practicile de lansare ale Anthropic, OpenAI și Google au probleme. Dar cel puțin fac ceva, orice pentru a evalua siguranța înainte de desfășurare și pentru a documenta constatările. xAI nu.
Ce este într-o placă de sistem? În primul rând, evaluările capabilităților periculoase (DC). Acestea măsoară cât de bine poate ajuta modelul cu sarcini care ar putea reprezenta o amenințare la adresa securității naționale (cum ar fi hackingul sau sintetizarea armelor biologice). De exemplu, acestea sunt evaluările bio DC raportate în cardul de sistem Claude 4.
751,65K