Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Deux nouveaux articles qui détaillent notre approche de l'alignement trompeur !
Premier article : nous évaluons la *discrétion* et la *conscience situationnelle* du modèle - s'ils n'ont pas ces capacités, ils ne peuvent probablement pas causer de graves dommages.

8 juil., 20:02
À mesure que les modèles avancent, une préoccupation clé en matière de sécurité de l'IA est l'alignement trompeur / "manigance" – où l'IA pourrait secrètement poursuivre des objectifs non intentionnels. Notre article "Évaluation des modèles de pointe pour la furtivité et la sensibilisation à la situation" évalue si les modèles actuels peuvent manigancer.

38,45K
Meilleurs
Classement
Favoris