xAI heeft Grok 4 gelanceerd zonder enige documentatie over hun veiligheidstests. Dit is roekeloos en breekt met de beste praktijken in de industrie die door andere grote AI-laboratoria worden gevolgd. Als xAI een grensverleggende AI-ontwikkelaar wil zijn, moeten ze zich ook zo gedragen. 🧵
Maar xAI is ver buiten de lijn in vergelijking met andere grensverleggende AI-ontwikkelaars, en dit moet worden aangekaart. Anthropic, OpenAI en de releasepraktijken van Google hebben problemen. Maar ze doen tenminste iets, iets om de veiligheid voorafgaand aan de implementatie te beoordelen en bevindingen te documenteren. xAI doet dat niet.
Wat staat er in een systeemkaart? Ten eerste, gevaarlijke capaciteiten (DC) evaluaties. Deze meten hoe goed het model kan helpen bij taken die een bedreiging voor de nationale veiligheid kunnen vormen (zoals hacken of het synthetiseren van biowapens). Bijv. dit zijn de bio DC evaluaties die gerapporteerd zijn in de Claude 4 systeemkaart.
648,16K