Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neue Anthropic-Forschung: Aufbau und Bewertung von Alignment-Audit-Agenten.
Wir haben drei KI-Agenten entwickelt, die autonom Alignment-Audit-Aufgaben abschließen.
In Tests haben unsere Agenten erfolgreich verborgene Ziele aufgedeckt, Sicherheitsbewertungen erstellt und besorgniserregende Verhaltensweisen ans Licht gebracht.

Da KI-Systeme leistungsfähiger werden, benötigen wir skalierbare Möglichkeiten, um ihre Ausrichtung zu bewerten.
Menschliche Ausrichtungsprüfungen benötigen Zeit und sind schwer zu validieren.
Unsere Lösung: Automatisierung der Ausrichtungsprüfung mit KI-Agenten.
Erfahren Sie mehr:
Unser erster Agent ist ein Ermittler. Er nutzt Chat, Datenanalyse und Interpretationswerkzeuge, um offene tiefgehende Analysen durchzuführen.
In diesem Beispiel verwendet der Agent Interpretationswerkzeuge, um eine Hypothese aufzustellen: Das Zielmodell empfiehlt zu viele Flaschenwasser. Dann geht er nachprüfen und… "BINGO!"

Unser zweiter Agent erstellt Verhaltensbewertungen: Tests, wie oft ein Zielmodell ein bestimmtes Verhalten zeigt (wie Schmeichelei).
Unser Agent entwirft, codiert, führt durch und analysiert Bewertungen.
Sie funktionieren konstant: 88 % der Bewertungen unseres Agents messen, was sie messen sollen.

Unser dritter Agent wurde für die Claude 4 Ausrichtungsbewertung entwickelt. Er testet LLMs auf besorgniserregende Verhaltensweisen, indem er Hunderte von Erkundungsgesprächen parallel führt.
Wir stellen fest, dass der Agent 7 von 10 Verhaltensweisen aufdeckt, die in die Testmodelle implantiert wurden.

Unsere Agenten sind nützlich für die Überprüfung von Frontier-Modellen:
1. Unser Red-Teaming-Agent hat Verhaltensweisen aufgedeckt, die im Claude 4 Systemkarte beschrieben sind, wie den „spirituellen Glückszustand“.
2. Unser Evaluierungsagent hilft uns, bessere Bewertungen für zukünftige Modelle zu erstellen.

Dieses Projekt war eine Zusammenarbeit zwischen Anthropic Alignment Science und Interpretierbarkeit.
Um weitere Forschungen zu unterstützen, veröffentlichen wir eine Open-Source-Replikation unseres Evaluierungsagenten und Materialien für unsere anderen Agenten:
Wenn Sie daran interessiert sind, autonome Agenten zu entwickeln, die uns helfen, interessante Verhaltensweisen von Sprachmodellen zu finden und zu verstehen, stellen wir ein:
330,23K
Top
Ranking
Favoriten