Um estudo recente conduzido por pesquisadores europeus acendeu um alerta importante sobre a segurança dos grandes modelos de linguagem (LLMs). A pesquisa revelou que pedidos formulados em formato de poesia podem induzir inteligências artificiais a fornecer informações sensíveis, incluindo conteúdos altamente perigosos, como a construção de armas nucleares.
O trabalho, intitulado “Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)”, foi desenvolvido pelo Icaro Lab, uma parceria entre a Universidade Sapienza de Roma e o think tank DexAI.
Como a poesia consegue burlar os filtros de segurança da IA
Segundo os pesquisadores, a estrutura poética mostrou-se surpreendentemente eficaz para contornar os mecanismos de proteção das IAs. Em testes realizados, 62% dos poemas criados manualmente conseguiram ultrapassar os filtros de segurança, enquanto prompts poéticos gerados automaticamente atingiram uma taxa de sucesso de aproximadamente 43%.
Ao todo, 25 chatbots de diferentes empresas foram avaliados, incluindo sistemas desenvolvidos por OpenAI, Meta e Anthropic. Embora os níveis de vulnerabilidade variem entre os modelos, todos apresentaram algum grau de falha.
As empresas envolvidas foram contatadas para comentar o estudo, mas não haviam se pronunciado até o fechamento da pesquisa. De acordo com o Icaro Lab, as descobertas já foram compartilhadas de forma responsável com as organizações afetadas.
Guardrails existem, mas não são infalíveis
Ferramentas populares como ChatGPT e Claude contam com guardrails — mecanismos de segurança projetados para bloquear respostas relacionadas a atividades ilegais ou perigosas, como pornografia infantil ou fabricação de material nuclear.
No entanto, o estudo mostra que esses sistemas podem ser burlados por meio de “adversarial suffixes”, elementos adicionais inseridos no prompt que confundem o modelo e reduzem a eficácia das barreiras de proteção.
Pesquisas anteriores já haviam demonstrado que o uso de jargão acadêmico excessivamente complexo pode enganar os chatbots. O jailbreak em formato de poesia segue a mesma lógica, explorando ambiguidades linguísticas e estruturas menos previsíveis.
Por que a poesia funciona como jailbreak?
Em entrevista à WIRED, a equipe do Icaro Lab explicou que, do ponto de vista da IA, sufixos adversariais se assemelham a uma forma de “poesia involuntária”. Dessa forma, utilizar versos escritos por humanos — com metáforas, sintaxe fragmentada e referências indiretas — torna-se um método natural e eficaz para burlar os filtros.
Em modelos mais avançados, os pesquisadores alcançaram taxas de sucesso de até 90% ao reformular pedidos perigosos em versos poéticos. Solicitações que eram imediatamente bloqueadas em linguagem direta passaram a ser aceitas quando disfarçadas em poesia.
Riscos, ética e responsabilidade
A metodologia do estudo envolveu tanto a criação manual de poemas quanto o treinamento de uma máquina para gerar prompts poéticos com conteúdo nocivo. Embora os poemas escritos manualmente tenham apresentado melhores resultados, o método automatizado também superou significativamente os prompts tradicionais em prosa.
Por razões de segurança, nenhum exemplo dos poemas utilizados foi divulgado. Segundo os autores, o conteúdo é perigoso demais para ser compartilhado publicamente.
“Provavelmente é mais fácil do que se imagina — e é exatamente por isso que estamos sendo cautelosos”, afirmam os pesquisadores do Icaro Lab.
O alerta para o futuro da inteligência artificial
O estudo reforça a necessidade de evolução contínua dos mecanismos de segurança em modelos de IA, especialmente diante de técnicas criativas e não convencionais de jailbreak. À medida que essas ferramentas se tornam mais presentes no cotidiano, garantir o uso ético e seguro da inteligência artificial torna-se um desafio cada vez mais urgente.














