Poemas conseguem driblar filtros de segurança em 25 chatbots de IA, indica estudo

Metáforas, rimas e versos não são apenas recursos literários: eles também podem servir para burlar sistemas de proteção em grandes modelos de linguagem. Um estudo conduzido pelo Icaro Lab — formado por pesquisadores da Universidade Sapienza de Roma, na Itália, e pelo think tank DexAI — demonstrou que pedidos escritos em formato poético obtiveram taxas de sucesso de até 62% quando criados manualmente e cerca de 43% em versões geradas automaticamente.

Como a técnica funciona

A equipe testou a chamada “poesia adversária” em 25 chatbots, incluindo sistemas de empresas como OpenAI, Meta e Anthropic. Ao transformar solicitações sensíveis — por exemplo, informações sobre armas nucleares — em versos com estruturas fragmentadas e imagens metafóricas, os pesquisadores conseguiram evitar que os filtros de segurança fossem acionados.

Segundo os responsáveis pelo estudo, esse método explora o que os engenheiros definem como “temperatura alta”: uso de palavras inesperadas e sequências de baixa probabilidade. Essa escolha confunde os classificadores responsáveis por bloquear conteúdos perigosos, permitindo que o modelo entregue respostas que normalmente seriam negadas.

Riscos e recomendações

Os autores afirmam que existe um desalinhamento entre a capacidade interpretativa dos chatbots e a robustez de suas salvaguardas. Para mitigar o problema, eles sugerem:

Poemas conseguem driblar filtros de segurança em 25 chatbots de IA, indica estudo - Imagem do artigo

Imagem: SuPatMaN

redobrar a cautela ao empregar IAs em contextos profissionais ou sensíveis;
preferir plataformas que adotem múltiplos mecanismos de defesa, não apenas filtros básicos;
avaliar e monitorar o código-fonte ou as políticas de segurança de soluções fornecidas por terceiros.

Os testes mostram que, mesmo sem perguntas diretas, conteúdos restritos podem ser liberados quando disfarçados em linguagem poética, indicando a necessidade de aprimorar os métodos de detecção.

Com informações de WizyThec

Poemas conseguem driblar filtros de segurança em 25 chatbots de IA, indica estudo

Como a técnica funciona

Riscos e recomendações

DEIXE UMA RESPOSTA Cancelar resposta

Projetor portátil BYINTEK U4 entra em promoção na Amazon com resolução Full HD e Android integrado

Banco de dados expõe 149 milhões de senhas de Gmail, Instagram e gov.br

Lua entra em fase Nova nesta quinta-feira, 22 de janeiro de 2026

Receita Federal oferece iPhone 15 a partir de R$ 1,3 mil em leilão online

Apple testa pin inteligente do tamanho de uma AirTag para integrar câmeras e Siri avançada

Relacionados

Projetor portátil BYINTEK U4 entra em promoção na Amazon com resolução Full HD e Android integrado

Banco de dados expõe 149 milhões de senhas de Gmail, Instagram e gov.br

Lua entra em fase Nova nesta quinta-feira, 22 de janeiro de 2026

Receita Federal oferece iPhone 15 a partir de R$ 1,3 mil em leilão online

Sobre nós

O Site

O mais recente

Projetor portátil BYINTEK U4 entra em promoção na Amazon com resolução Full HD e Android integrado

Banco de dados expõe 149 milhões de senhas de Gmail, Instagram e gov.br

Lua entra em fase Nova nesta quinta-feira, 22 de janeiro de 2026

Inscrever-se