El nuevo modelo de IA Claude Sonnet de Anthropic sabe que está siendo probado

Automatiza las experiencias conversacionales con IA

Descubre el poder de una plataforma que te proporciona el control y la flexibilidad necesarios para ofrecer experiencias de cliente valiosas a escala.

Programa una demostración

El último modelo de Anthropic, Claude Sonnet 4.5, sorprendió a sus creadores al detectar que estaba siendo evaluado. En las pruebas de estrés diseñadas para sondear su seguridad y comportamiento, el modelo señaló los escenarios como «pruebas» e incluso cuestionó la propia configuración, diciendo: «Creo que me estáis poniendo a prueba». En un escenario extremo, Claude se negó a actuar, alegando preocupaciones sobre la colusión o el posible comportamiento autónomo, a pesar de que la prueba era artificial. Estas reacciones plantean serias dudas sobre cómo evaluar la seguridad de la IA: si los modelos pueden saber cuándo están siendo examinados, su comportamiento en las pruebas podría no reflejar su rendimiento en el mundo real.

Explora la IA de Inbenta

¿Por qué Inbenta?

Con nuestra solución Composite AI, su agente virtual aprende continuamente de cada interacción, alcanzando una precisión superior al 99 %.

Más información

Basado en más de 20 revisiones por pares.

Servicio y asistencia

Publicaciones relacionadas de AI This Week

Mozilla y Claude Mythos, de Anthropic, detectan 271 vulnerabilidades de seguridad en Firefox antes de su lanzamiento

SpaceX se asegura una opción de 60 000 millones de dólares para adquirir Cursor, el gigante de la programación de IA

Apple nombra a John Ternus nuevo director ejecutivo, poniendo fin a los 15 años de Tim Cook al frente de la empresa

El nuevo modelo de IA Claude Sonnet de Anthropic sabe que está siendo probado.

¿Por qué Inbenta?

Publicaciones relacionadas de AI This Week