Home / Segurança da Informação / Poemas podem enganar IA e expor riscos na segurança de modelos de linguagem

Segurança da Informação

Poemas podem enganar IA e expor riscos na segurança de modelos de linguagem

16 de dezembro de 2025 10:55

Um estudo recente conduzido por pesquisadores europeus acendeu um alerta importante sobre a segurança dos grandes modelos de linguagem (LLMs). A pesquisa revelou que pedidos formulados em formato de poesia podem induzir inteligências artificiais a fornecer informações sensíveis, incluindo conteúdos altamente perigosos, como a construção de armas nucleares.

O trabalho, intitulado “Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)”, foi desenvolvido pelo Icaro Lab, uma parceria entre a Universidade Sapienza de Roma e o think tank DexAI.

Como a poesia consegue burlar os filtros de segurança da IA

Segundo os pesquisadores, a estrutura poética mostrou-se surpreendentemente eficaz para contornar os mecanismos de proteção das IAs. Em testes realizados, 62% dos poemas criados manualmente conseguiram ultrapassar os filtros de segurança, enquanto prompts poéticos gerados automaticamente atingiram uma taxa de sucesso de aproximadamente 43%.

Ao todo, 25 chatbots de diferentes empresas foram avaliados, incluindo sistemas desenvolvidos por OpenAI, Meta e Anthropic. Embora os níveis de vulnerabilidade variem entre os modelos, todos apresentaram algum grau de falha.

As empresas envolvidas foram contatadas para comentar o estudo, mas não haviam se pronunciado até o fechamento da pesquisa. De acordo com o Icaro Lab, as descobertas já foram compartilhadas de forma responsável com as organizações afetadas.

Guardrails existem, mas não são infalíveis

Ferramentas populares como ChatGPT e Claude contam com guardrails — mecanismos de segurança projetados para bloquear respostas relacionadas a atividades ilegais ou perigosas, como pornografia infantil ou fabricação de material nuclear.

No entanto, o estudo mostra que esses sistemas podem ser burlados por meio de “adversarial suffixes”, elementos adicionais inseridos no prompt que confundem o modelo e reduzem a eficácia das barreiras de proteção.

Pesquisas anteriores já haviam demonstrado que o uso de jargão acadêmico excessivamente complexo pode enganar os chatbots. O jailbreak em formato de poesia segue a mesma lógica, explorando ambiguidades linguísticas e estruturas menos previsíveis.

Por que a poesia funciona como jailbreak?

Em entrevista à WIRED, a equipe do Icaro Lab explicou que, do ponto de vista da IA, sufixos adversariais se assemelham a uma forma de “poesia involuntária”. Dessa forma, utilizar versos escritos por humanos — com metáforas, sintaxe fragmentada e referências indiretas — torna-se um método natural e eficaz para burlar os filtros.

Em modelos mais avançados, os pesquisadores alcançaram taxas de sucesso de até 90% ao reformular pedidos perigosos em versos poéticos. Solicitações que eram imediatamente bloqueadas em linguagem direta passaram a ser aceitas quando disfarçadas em poesia.

Riscos, ética e responsabilidade

A metodologia do estudo envolveu tanto a criação manual de poemas quanto o treinamento de uma máquina para gerar prompts poéticos com conteúdo nocivo. Embora os poemas escritos manualmente tenham apresentado melhores resultados, o método automatizado também superou significativamente os prompts tradicionais em prosa.

Por razões de segurança, nenhum exemplo dos poemas utilizados foi divulgado. Segundo os autores, o conteúdo é perigoso demais para ser compartilhado publicamente.

“Provavelmente é mais fácil do que se imagina — e é exatamente por isso que estamos sendo cautelosos”, afirmam os pesquisadores do Icaro Lab.

O alerta para o futuro da inteligência artificial

O estudo reforça a necessidade de evolução contínua dos mecanismos de segurança em modelos de IA, especialmente diante de técnicas criativas e não convencionais de jailbreak. À medida que essas ferramentas se tornam mais presentes no cotidiano, garantir o uso ético e seguro da inteligência artificial torna-se um desafio cada vez mais urgente.

Relacionado

Marcado:chatgpt cybersecuranca cybersecurity IA

Camila Figueiredo

Poemas podem enganar IA e expor riscos na segurança de modelos de linguagem

Como a poesia consegue burlar os filtros de segurança da IA

Guardrails existem, mas não são infalíveis

Por que a poesia funciona como jailbreak?

Riscos, ética e responsabilidade

O alerta para o futuro da inteligência artificial

Curtir isso:

Relacionado

Google e Apple lançam atualizações emergenciais após ataques zero-day

🎭 Carnaval de Abaetetuba 2026 — Tradição, Música e Ritmo Amazônico

Deixe um Comentário Cancelar resposta

Artigos em destaque

Falha crítica no Notepad permitia execução automática de malware

Hackers usam IA para dominar contas AWS em minutos

WhatsApp: como identificar mensagem oficial do Gov.br

OpenClaw reforça segurança do ClawHub com VirusTotal

Falha crítica no NGINX permite sequestro de tráfego web

Notepad++ sofre ataque avançado via sistema de atualização

Poemas podem enganar IA e expor riscos na segurança de modelos de linguagem

Como a poesia consegue burlar os filtros de segurança da IA

Guardrails existem, mas não são infalíveis

Por que a poesia funciona como jailbreak?

Riscos, ética e responsabilidade

O alerta para o futuro da inteligência artificial

Curtir isso:

Relacionado

Google e Apple lançam atualizações emergenciais após ataques zero-day

🎭 Carnaval de Abaetetuba 2026 — Tradição, Música e Ritmo Amazônico

Sign Up For Daily Newsletter

Related Posts

Deixe um Comentário Cancelar resposta

Artigos em destaque