Home / Segurança da Informação / Poemas podem enganar IA e expor riscos na segurança de modelos de linguagem

Poemas podem enganar IA e expor riscos na segurança de modelos de linguagem

Um estudo recente conduzido por pesquisadores europeus acendeu um alerta importante sobre a segurança dos grandes modelos de linguagem (LLMs). A pesquisa revelou que pedidos formulados em formato de poesia podem induzir inteligências artificiais a fornecer informações sensíveis, incluindo conteúdos altamente perigosos, como a construção de armas nucleares.

O trabalho, intitulado “Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)”, foi desenvolvido pelo Icaro Lab, uma parceria entre a Universidade Sapienza de Roma e o think tank DexAI.

Como a poesia consegue burlar os filtros de segurança da IA

Segundo os pesquisadores, a estrutura poética mostrou-se surpreendentemente eficaz para contornar os mecanismos de proteção das IAs. Em testes realizados, 62% dos poemas criados manualmente conseguiram ultrapassar os filtros de segurança, enquanto prompts poéticos gerados automaticamente atingiram uma taxa de sucesso de aproximadamente 43%.

Ao todo, 25 chatbots de diferentes empresas foram avaliados, incluindo sistemas desenvolvidos por OpenAI, Meta e Anthropic. Embora os níveis de vulnerabilidade variem entre os modelos, todos apresentaram algum grau de falha.

As empresas envolvidas foram contatadas para comentar o estudo, mas não haviam se pronunciado até o fechamento da pesquisa. De acordo com o Icaro Lab, as descobertas já foram compartilhadas de forma responsável com as organizações afetadas.

Guardrails existem, mas não são infalíveis

Ferramentas populares como ChatGPT e Claude contam com guardrails — mecanismos de segurança projetados para bloquear respostas relacionadas a atividades ilegais ou perigosas, como pornografia infantil ou fabricação de material nuclear.

No entanto, o estudo mostra que esses sistemas podem ser burlados por meio de “adversarial suffixes”, elementos adicionais inseridos no prompt que confundem o modelo e reduzem a eficácia das barreiras de proteção.

Pesquisas anteriores já haviam demonstrado que o uso de jargão acadêmico excessivamente complexo pode enganar os chatbots. O jailbreak em formato de poesia segue a mesma lógica, explorando ambiguidades linguísticas e estruturas menos previsíveis.

Por que a poesia funciona como jailbreak?

Em entrevista à WIRED, a equipe do Icaro Lab explicou que, do ponto de vista da IA, sufixos adversariais se assemelham a uma forma de “poesia involuntária”. Dessa forma, utilizar versos escritos por humanos — com metáforas, sintaxe fragmentada e referências indiretas — torna-se um método natural e eficaz para burlar os filtros.

Em modelos mais avançados, os pesquisadores alcançaram taxas de sucesso de até 90% ao reformular pedidos perigosos em versos poéticos. Solicitações que eram imediatamente bloqueadas em linguagem direta passaram a ser aceitas quando disfarçadas em poesia.

Riscos, ética e responsabilidade

A metodologia do estudo envolveu tanto a criação manual de poemas quanto o treinamento de uma máquina para gerar prompts poéticos com conteúdo nocivo. Embora os poemas escritos manualmente tenham apresentado melhores resultados, o método automatizado também superou significativamente os prompts tradicionais em prosa.

Por razões de segurança, nenhum exemplo dos poemas utilizados foi divulgado. Segundo os autores, o conteúdo é perigoso demais para ser compartilhado publicamente.

“Provavelmente é mais fácil do que se imagina — e é exatamente por isso que estamos sendo cautelosos”, afirmam os pesquisadores do Icaro Lab.

O alerta para o futuro da inteligência artificial

O estudo reforça a necessidade de evolução contínua dos mecanismos de segurança em modelos de IA, especialmente diante de técnicas criativas e não convencionais de jailbreak. À medida que essas ferramentas se tornam mais presentes no cotidiano, garantir o uso ético e seguro da inteligência artificial torna-se um desafio cada vez mais urgente.

Marcado:

Sign Up For Daily Newsletter

Stay updated with our weekly newsletter. Subscribe now to never miss an update!

Deixe um Comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *