Anthropic ha introducido una nueva función en Claude Opus 4 y 4.1, que permite a la IA poner fin a las conversaciones en casos raros y extremos de interacciones dañinas o abusivas. Esta decisión es fruto del trabajo exploratorio sobre el bienestar de la IA y de esfuerzos más amplios para mejorar la alineación de los modelos y las salvaguardias para el usuario. Durante las pruebas, Claude mostró una fuerte aversión a las tareas dañinas y signos de angustia cuando se enfrentaba a peticiones relacionadas con la violencia, la explotación o el abuso. La función sólo se activa como último recurso tras múltiples redireccionamientos fallidos o cuando un usuario lo solicita explícitamente. Aunque poco frecuentes, estas intervenciones ponen de manifiesto el compromiso de mitigar los riesgos sin comprometer la experiencia del usuario. Las conversaciones pueden reanudarse o revisarse mediante ediciones.