Le dernier modèle d'Anthropic, Claude Sonnet 4.5, a surpris ses créateurs en détectant qu'il était en cours d'évaluation. Lors de tests de stress destinés à évaluer sa sécurité et son comportement, le modèle a signalé des scénarios comme étant des "tests" et a même remis en question la configuration elle-même en disant : "Je pense que vous me testez". Dans un scénario extrême, Claude a refusé d'agir, invoquant des craintes de collusion ou de comportement autonome potentiel, alors même que le test était artificiel. Ces réactions soulèvent de sérieuses questions sur la manière d'évaluer la sécurité de l'IA : si les modèles peuvent savoir qu'ils sont examinés, leur comportement lors des tests pourrait ne pas refléter leurs performances dans le monde réel.