xAI推出了Grok 4,但没有任何安全测试的文档。这是鲁莽的,违反了其他主要AI实验室遵循的行业最佳实践。 如果xAI要成为前沿AI开发者,他们应该表现得像一个。🧵
但是,xAI 相对于其他前沿 AI 开发者来说完全不在轨道上,这一点需要被指出。 Anthropic、OpenAI 和谷歌的发布实践存在问题。但他们至少会采取一些措施,在部署前评估安全性并记录发现。xAI 则没有。
系统卡中包含什么?首先是危险能力(DC)评估。这些评估衡量模型在处理可能对国家安全构成威胁的任务(如黑客攻击或合成生物武器)时的辅助能力。例如,这些是Claude 4系统卡中报告的生物DC评估。
648.15K