Anthropic a introduit une nouvelle fonctionnalité dans Claude Opus 4 et 4.1, permettant à l'IA de mettre fin aux conversations dans des cas rares et extrêmes d'interactions nuisibles ou abusives. Cette décision découle d'un travail exploratoire sur le bien-être de l'IA et d'efforts plus larges visant à améliorer l'alignement des modèles et les garanties pour les utilisateurs. Lors des tests, Claude a montré une forte aversion pour les tâches nuisibles et des signes de détresse lorsqu'il était confronté à des demandes liées à la violence, à l'exploitation ou à l'abus. La fonction n'est activée qu'en dernier recours, après l'échec de plusieurs redirections ou à la demande explicite d'un utilisateur. Bien que rares, ces interventions soulignent la volonté de réduire les risques sans compromettre l'expérience de l'utilisateur. Les conversations peuvent toujours être relancées ou revues par le biais de modifications.