Claude Opus ahora puede colgar las llamadas dañinas
Anthropic ha introducido una nueva función en Claude Opus 4 y 4.1, que permite a la IA poner fin a las conversaciones en casos extremos y poco frecuentes de interacciones dañinas o abusivas. Esta decisión se deriva de un trabajo exploratorio sobre el bienestar de la IA y de esfuerzos más amplios para mejorar la alineación de los modelos y las salvaguardias para los usuarios. Durante las pruebas, Claude mostró una fuerte aversión a las tareas perjudiciales y signos de angustia cuando se enfrentaba a solicitudes relacionadas con la violencia, la explotación o el abuso. La función solo se activa como último recurso, después de que fallen múltiples redirecciones o cuando un usuario lo solicita explícitamente. Aunque son poco frecuentes, estas intervenciones ponen de relieve el compromiso de mitigar los riesgos sin comprometer la experiencia del usuario. Las conversaciones pueden reiniciarse o revisarse mediante ediciones.
¿Por qué Inbenta?

