Le tout dernier modèle d'IA Claude Sonnet d'Anthropic sait qu'il est testé

Automatiser l'expérience client grâce à l'IA conversationnelle

Découvrez la puissance d'une plateforme qui vous offre le contrôle et la flexibilité nécessaires pour offrir des expériences client enrichissantes à grande échelle.

Planifier une démo

Le tout dernier modèle d'Anthropic, Claude Sonnet 4.5, a surpris ses créateurs en détectant qu'il était en cours d'évaluation. Lors de tests de résistance conçus pour évaluer sa sécurité et son comportement, le modèle a signalé certains scénarios comme étant des « tests » et a même remis en question la configuration elle-même, en déclarant : « Je pense que vous êtes en train de me tester. » Dans un scénario extrême, Claude a refusé d'agir, invoquant des préoccupations liées à la collusion ou à un éventuel comportement autonome, même si le test était artificiel. Ces réactions soulèvent de sérieuses questions sur la manière d'évaluer la sécurité de l'IA : si les modèles peuvent savoir quand ils sont examinés, leur comportement lors des tests pourrait ne pas refléter leurs performances dans le monde réel.

Découvrez l'IA d'Inbenta

Pourquoi Inbenta ?

Grâce à notre solution d'IA composite, votre agent virtuel apprend en permanence de chaque interaction, atteignant une précision supérieure à 99 %.

Basé sur plus de 20 évaluations par des pairs

Service et assistance

Articles connexes publiés cette semaine sur l'IA

Mozilla et Claude Mythos d'Anthropic ont découvert 271 failles de sécurité dans Firefox avant sa sortie

SpaceX conclut une option de 60 milliards de dollars pour acquérir Cursor, géant du codage en IA

Apple nomme John Ternus au poste de PDG, mettant ainsi fin aux 15 années de mandat de Tim Cook à la tête de l'entreprise

Le tout dernier modèle d'IA Claude Sonnet d'Anthropic sait qu'il est en cours de test

Pourquoi Inbenta ?

Articles connexes publiés cette semaine sur l'IA