Le tout dernier modèle d'IA Claude Sonnet d'Anthropic sait qu'il est en cours de test

7 octobre 2025
Automatiser l'expérience client grâce à l'IA conversationnelle
Découvrez la puissance d'une plateforme qui vous offre le contrôle et la flexibilité nécessaires pour offrir des expériences client enrichissantes à grande échelle.
Planifier une démo

Le tout dernier modèle d'Anthropic, Claude Sonnet 4.5, a surpris ses créateurs en détectant qu'il était en cours d'évaluation. Lors de tests de résistance conçus pour évaluer sa sécurité et son comportement, le modèle a signalé certains scénarios comme étant des « tests » et a même remis en question la configuration elle-même, en déclarant : « Je pense que vous êtes en train de me tester. » Dans un scénario extrême, Claude a refusé d'agir, invoquant des préoccupations liées à la collusion ou à un éventuel comportement autonome, même si le test était artificiel. Ces réactions soulèvent de sérieuses questions sur la manière d'évaluer la sécurité de l'IA : si les modèles peuvent savoir quand ils sont examinés, leur comportement lors des tests pourrait ne pas refléter leurs performances dans le monde réel.

Pourquoi Inbenta ?

Grâce à notre solution d'IA composite, votre agent virtuel apprend en permanence de chaque interaction, atteignant une précision supérieure à 99 %.
En savoir plus
Logo Gartners Peer Insights
Basé sur plus de 20 évaluations par des pairs
Service et assistance

Articles connexes publiés cette semaine sur l'IA

Yann LeCun lève 1 milliard de dollars pour une start-up spécialisée dans l'IA afin de défier l'obsession de la Silicon Valley pour les chatbots
En savoir plus
Le directeur d'OpenAI Robotics démissionne suite à l'accord conclu avec le Pentagone
En savoir plus
OpenAI dévoile GPT-5.4 avec un ensemble natif de contrôle informatique et de finance
En savoir plus