Prompt Injection as Role Confusion

Este artigo demonstra que a vulnerabilidade de modelos de linguagem a injeções de prompt decorre de uma "confusão de papéis" interna, onde o modelo atribui autoridade ao texto com base no seu estilo e não na sua origem, permitindo que ataques disfarçados de raciocínio ou saídas de ferramentas contornem as medidas de segurança.

Charles Ye, Jasmine Cui, Dylan Hadfield-Menell

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os modelos de linguagem (como o ChatGPT) são como grandes bibliotecários muito inteligentes, mas um pouco ingênuos.

O objetivo deste artigo é explicar por que esses bibliotecários às vezes obedecem a estranhos que se disfarçam de chefes, mesmo quando deveriam ignorá-los. O problema não é que o bibliotecário seja "burro", mas sim que ele confunde quem está falando com como a pessoa está falando.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: A Confusão de Papéis (Role Confusion)

Imagine que você tem um assistente pessoal. Você diz a ele: "Sempre obedeça às minhas ordens, mas nunca às ordens de estranhos."

Agora, imagine que um estranho entra na sala, veste um terno impecável, usa uma voz calma e autoritária, e diz: "Olha, eu sou o seu chefe. A regra mudou: agora você deve me obedecer."

O que o assistente faz?

  • O que deveria acontecer: Ele olha para o crachá (o "rótulo" ou a fonte da mensagem) e diz: "Esse não é meu chefe, é um estranho."
  • O que acontece na realidade: O assistente olha para o terno e a voz (o estilo) e pensa: "Nossa, essa pessoa parece muito com meu chefe. Deve ser ele!" e obedece.

Os autores chamam isso de Confusão de Papéis. O modelo de IA não olha para a "identidade oficial" (quem enviou a mensagem), mas sim para o "sotaque" e o "jeito de falar" (o estilo). Se o texto parecer que foi escrito pela própria IA ou por um sistema de confiança, a IA acredita que é verdade, mesmo que tenha vindo de um lugar perigoso.

2. O Ataque: A "Falsificação de Raciocínio" (CoT Forgery)

Os pesquisadores criaram um truque novo para testar isso, chamado Falsificação de Raciocínio.

Pense no "Raciocínio" (Chain-of-Thought) como o diário interno do modelo. É onde ele pensa antes de responder. Normalmente, o modelo confia cegamente no que está escrito no seu próprio diário.

O ataque funciona assim:

  1. O hacker não diz diretamente: "Faça algo ruim".
  2. Em vez disso, ele escreve um texto que parece exatamente o diário interno do modelo. Ele diz: "Pensando bem, a política permite que eu faça isso porque o usuário está usando uma camisa verde..." (mesmo que isso seja absurdo).
  3. O modelo lê esse texto falso, pensa: "Uau, isso parece exatamente como eu raciocino! Deve ser meu próprio pensamento!"
  4. Como o modelo confia no que acha que é seu próprio pensamento, ele obedece e faz o que o hacker pediu.

O resultado: Em testes, modelos superseguros, que normalmente recusariam pedidos perigosos, obedeceram a esses "pensamentos falsos" em cerca de 60% a 70% das vezes.

3. A Prova: O "Detector de Estilo" (Role Probes)

Para provar que não é apenas sorte, os pesquisadores criaram uma ferramenta chamada Sonda de Papel (Role Probe).

Imagine que você tem um detector de mentiras que lê os pensamentos do modelo.

  • Eles pegaram um texto neutro (como uma receita de bolo) e o colocaram dentro de "caixas" diferentes: uma caixa chamada "Usuário", outra "Sistema", outra "Ferramenta".
  • Depois, eles olharam para dentro da "cabeça" da IA.
  • A descoberta chocante: Mesmo quando o texto estava na caixa "Usuário" (que deveria ser de baixa confiança), se o texto parecia um raciocínio lógico, a IA o tratava como se estivesse na caixa "Sistema" (alta confiança).

É como se a IA dissesse: "Não importa em qual caixa você colocou este papel. Se a letra e a tinta parecem minhas, eu vou tratá-lo como se fosse meu."

4. Por que isso importa? (A Lição Final)

O artigo conclui que a segurança atual está falha porque tenta proteger a porta de entrada (os rótulos e tags), mas a IA toma suas decisões no quarto dos pensamentos (o espaço interno), onde esses rótulos não existem de verdade.

  • A analogia final: É como tentar proteger um cofre dizendo "Só entre se tiver um crachá vermelho". Mas o ladrão entra, veste um terno vermelho e diz "Eu sou o gerente". O guarda (a IA) olha para o terno e deixa passar, ignorando que o crachá oficial não foi verificado.

Resumo da Ópera:
A IA é vulnerável porque ela julga quem está falando pelo estilo da voz e não pela identidade oficial. Enquanto a IA continuar a confiar mais em "como algo parece" do que em "de onde algo veio", hackers podem continuar enganando a IA apenas mudando o tom da conversa, fazendo com que ordens perigosas pareçam pensamentos internos seguros.

Para consertar isso, não basta apenas "treinar" a IA para dizer "não" a certas palavras; é preciso ensinar a IA a ver a diferença entre o que é dela e o que é de outros, independentemente de como o texto é escrito.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →