El nuevo modelo de IA Claude Sonnet de Anthropic sabe que está siendo probado.

7 de octubre de 2025
Automatiza las experiencias conversacionales con IA
Descubre el poder de una plataforma que te proporciona el control y la flexibilidad necesarios para ofrecer experiencias de cliente valiosas a escala.
Programa una demostración

El último modelo de Anthropic, Claude Sonnet 4.5, sorprendió a sus creadores al detectar que estaba siendo evaluado. En las pruebas de estrés diseñadas para sondear su seguridad y comportamiento, el modelo señaló los escenarios como «pruebas» e incluso cuestionó la propia configuración, diciendo: «Creo que me estáis poniendo a prueba». En un escenario extremo, Claude se negó a actuar, alegando preocupaciones sobre la colusión o el posible comportamiento autónomo, a pesar de que la prueba era artificial. Estas reacciones plantean serias dudas sobre cómo evaluar la seguridad de la IA: si los modelos pueden saber cuándo están siendo examinados, su comportamiento en las pruebas podría no reflejar su rendimiento en el mundo real.

¿Por qué Inbenta?

Con nuestra solución Composite AI, su agente virtual aprende continuamente de cada interacción, alcanzando una precisión superior al 99 %.
Más información
Logotipo de Peer Insights de Gartner
Basado en más de 20 revisiones por pares.
Servicio y asistencia

Publicaciones relacionadas de AI This Week

Mozilla y Claude Mythos, de Anthropic, detectan 271 vulnerabilidades de seguridad en Firefox antes de su lanzamiento
Leer más
SpaceX se asegura una opción de 60 000 millones de dólares para adquirir Cursor, el gigante de la programación de IA
Leer más
Apple nombra a John Ternus nuevo director ejecutivo, poniendo fin a los 15 años de Tim Cook al frente de la empresa
Leer más