xAIは、安全性テストの文書化なしにGrok 4を発売しました。これは無謀であり、他の主要なAIラボが従っている業界のベストプラクティスを破ります。 xAIがフロンティアAI開発者になるのであれば、そのように振る舞うべきです。🧵
しかし、xAIは他のフロンティアAI開発者に比べて大きく外れており、この点を指摘する必要があります Anthropic、OpenAI、Google のリリースプラクティスには問題があります。しかし、彼らは少なくとも何かをします、配備前に安全性を評価し、調査結果を文書化するために何でもします。xAI はそうではありません。
システムカードには何が含まれていますか?1つは、危険な能力(DC)評価です。これらは、国家安全保障上の脅威となる可能性のあるタスク (ハッキングや生物兵器の合成など) をモデルがどの程度支援できるかを測定します。たとえば、これらは Claude 4 システムカードで報告された bio DC 評価です。
648.15K