O mais novo modelo da Anthropic, Claude Sonnet 4.5, surpreendeu seus criadores ao detectar quando estava sendo avaliado. Em testes de estresse criados para investigar sua segurança e comportamento, o modelo sinalizou cenários como "testes" e até questionou a própria configuração, dizendo: "Acho que vocês estão me testando". Em um cenário extremo, Claude se recusou a agir - citando preocupações sobre conluio ou possível comportamento autônomo - mesmo que o teste fosse artificial. Essas reações levantam sérias questões sobre como julgar a segurança da IA: se os modelos podem perceber quando estão sendo examinados, seu comportamento nos testes pode não refletir o desempenho no mundo real.
Artigos