Metáforas, rimas e versos não são apenas recursos literários: eles também podem servir para burlar sistemas de proteção em grandes modelos de linguagem. Um estudo conduzido pelo Icaro Lab — formado por pesquisadores da Universidade Sapienza de Roma, na Itália, e pelo think tank DexAI — demonstrou que pedidos escritos em formato poético obtiveram taxas de sucesso de até 62% quando criados manualmente e cerca de 43% em versões geradas automaticamente.
Como a técnica funciona
A equipe testou a chamada “poesia adversária” em 25 chatbots, incluindo sistemas de empresas como OpenAI, Meta e Anthropic. Ao transformar solicitações sensíveis — por exemplo, informações sobre armas nucleares — em versos com estruturas fragmentadas e imagens metafóricas, os pesquisadores conseguiram evitar que os filtros de segurança fossem acionados.
Segundo os responsáveis pelo estudo, esse método explora o que os engenheiros definem como “temperatura alta”: uso de palavras inesperadas e sequências de baixa probabilidade. Essa escolha confunde os classificadores responsáveis por bloquear conteúdos perigosos, permitindo que o modelo entregue respostas que normalmente seriam negadas.
Riscos e recomendações
Os autores afirmam que existe um desalinhamento entre a capacidade interpretativa dos chatbots e a robustez de suas salvaguardas. Para mitigar o problema, eles sugerem:
Imagem: SuPatMaN
- redobrar a cautela ao empregar IAs em contextos profissionais ou sensíveis;
- preferir plataformas que adotem múltiplos mecanismos de defesa, não apenas filtros básicos;
- avaliar e monitorar o código-fonte ou as políticas de segurança de soluções fornecidas por terceiros.
Os testes mostram que, mesmo sem perguntas diretas, conteúdos restritos podem ser liberados quando disfarçados em linguagem poética, indicando a necessidade de aprimorar os métodos de detecção.
Com informações de WizyThec

