El modelo más reciente de Anthropic, Claude Sonnet 4.5, sorprendió a sus creadores al detectar cuándo estaba siendo evaluado. En las pruebas de estrés diseñadas para comprobar su seguridad y comportamiento, el modelo marcó los escenarios como "pruebas" e incluso cuestionó la propia configuración, diciendo: "Creo que me estás probando a mí". En un escenario extremo, Claude se negó a actuar -citando preocupaciones sobre colusión o posible comportamiento autónomo- a pesar de que la prueba era artificial. Estas reacciones plantean serias dudas sobre cómo juzgar la seguridad de la IA: si los modelos pueden saber cuándo están siendo examinados, su comportamiento en las pruebas podría no reflejar el rendimiento en el mundo real.
Artículos