¡Estamos lanzando un equipo de "psiquiatría de IA" como parte de los esfuerzos de interpretabilidad en Anthropic!  Investigaremos fenómenos como personas modelo, motivaciones y conciencia situacional, y cómo conducen a comportamientos espeluznantes / desquiciados. Estamos contratando, ¡únete a nosotros!
210.13K