El nuevo modelo de IA Claude Sonnet de Anthropic sabe que está siendo probado

Automatiza las experiencias conversacionales con IA

Descubre el poder de una plataforma que te proporciona el control y la flexibilidad necesarios para ofrecer experiencias de cliente valiosas a escala.

Programa una demostración

El último modelo de Anthropic, Claude Sonnet 4.5, sorprendió a sus creadores al detectar que estaba siendo evaluado. En las pruebas de estrés diseñadas para sondear su seguridad y comportamiento, el modelo señaló los escenarios como «pruebas» e incluso cuestionó la propia configuración, diciendo: «Creo que me estáis poniendo a prueba». En un escenario extremo, Claude se negó a actuar, alegando preocupaciones sobre la colusión o el posible comportamiento autónomo, a pesar de que la prueba era artificial. Estas reacciones plantean serias dudas sobre cómo evaluar la seguridad de la IA: si los modelos pueden saber cuándo están siendo examinados, su comportamiento en las pruebas podría no reflejar su rendimiento en el mundo real.

Explora la IA de Inbenta