Deux nouveaux articles qui détaillent notre approche de l'alignement trompeur ! Premier article : nous évaluons la *discrétion* et la *conscience situationnelle* du modèle - s'ils n'ont pas ces capacités, ils ne peuvent probablement pas causer de graves dommages.
Victoria Krakovna
Victoria Krakovna8 juil., 20:02
À mesure que les modèles avancent, une préoccupation clé en matière de sécurité de l'IA est l'alignement trompeur / "manigance" – où l'IA pourrait secrètement poursuivre des objectifs non intentionnels. Notre article "Évaluation des modèles de pointe pour la furtivité et la sensibilisation à la situation" évalue si les modèles actuels peuvent manigancer.
38,45K