A Anthropic introduziu um novo recurso no Claude Opus 4 e 4.1, permitindo que a IA encerre as conversas em casos raros e extremos de interações prejudiciais ou abusivas. Essa decisão é resultado de um trabalho exploratório sobre o bem-estar da IA e de esforços mais amplos para melhorar o alinhamento do modelo e as proteções do usuário. Durante os testes, o Claude demonstrou uma forte aversão a tarefas prejudiciais e sinais de angústia quando confrontado com solicitações relacionadas a violência, exploração ou abuso. O recurso é ativado apenas como último recurso após a falha de vários redirecionamentos ou quando solicitado explicitamente por um usuário. Embora raras, essas intervenções destacam um compromisso com a redução dos riscos sem comprometer a experiência do usuário. As conversas ainda podem ser reiniciadas ou revisitadas por meio de edições.