O mais recente modelo de IA Claude Sonnet da Anthropic sabe que está sendo testado

7 de outubro de 2025
Automatize experiências conversacionais com IA
Descubra o poder de uma plataforma que lhe oferece controle e flexibilidade para proporcionar experiências valiosas aos clientes em grande escala.
Agende uma demonstração

O mais novo modelo da Anthropic, Claude Sonnet 4.5, surpreendeu seus criadores ao detectar quando estava sendo avaliado. Em testes de estresse projetados para investigar sua segurança e comportamento, o modelo sinalizou cenários como “testes” e até questionou a própria configuração, dizendo: “Acho que você está me testando”. Em um cenário extremo, Claude se recusou a agir — citando preocupações com conluio ou possível comportamento autônomo — mesmo que o teste fosse artificial. Essas reações levantam sérias questões sobre como avaliar a segurança da IA: se os modelos podem perceber quando estão sendo examinados, seu comportamento nos testes pode não refletir o desempenho no mundo real.

Por que Inbenta

Com nossa solução de IA composta, seu agente virtual aprende continuamente com cada interação, alcançando mais de 99% de precisão.
Aprenda mais
Logotipo da Gartner Peer Insights
Com base em mais de 20 avaliações de pares
Serviço e suporte

Postagens relacionadas da AI This Week

A Mistral AI levanta US$ 830 milhões para construir centros de dados equipados com tecnologia da Nvidia em toda a Europa
Leia mais
A Anthropic vaza acidentalmente o código-fonte do Claude em um grave erro de segurança
Leia mais
A OpenAI fecha rodada de financiamento recorde de US$ 122 bilhões com avaliação de US$ 852 bilhões
Leia mais