Claude Opus peut désormais raccrocher lors de conversations nuisibles
Anthropic a introduit une nouvelle fonctionnalité dans Claude Opus 4 et 4.1, permettant à l'IA de mettre fin à des conversations dans des cas rares et extrêmes d'interactions nuisibles ou abusives. Cette décision découle de travaux exploratoires sur le bien-être de l'IA et d'efforts plus larges visant à améliorer l'alignement des modèles et la protection des utilisateurs. Au cours des tests, Claude a montré une forte aversion pour les tâches nuisibles et des signes de détresse lorsqu'il était confronté à des demandes liées à la violence, à l'exploitation ou aux abus. Cette fonctionnalité ne s'active qu'en dernier recours, après l'échec de plusieurs redirections ou lorsqu'un utilisateur en fait la demande explicite. Bien que rares, ces interventions soulignent notre engagement à atténuer les risques sans compromettre l'expérience utilisateur. Les conversations peuvent toujours être reprises ou revisitées grâce à des modifications.
Pourquoi Inbenta ?

