JULI: Jailbreak Large Language Models by Self-Introspection

O artigo propõe o JULI, um método que quebra a segurança de Grandes Modelos de Linguagem (LLMs) em cenários de caixa-preta ao manipular as probabilidades logarítmicas dos tokens por meio de um pequeno bloco chamado BiasNet, alcançando eficácia superior mesmo com acesso limitado apenas aos top-5 tokens previstos.

Jesson Wang, Zhanhao Hu, David Wagner

Publicado Wed, 11 Ma
📖 3 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Gemini, são como guardiões de um museu muito seguro. Eles foram treinados para não deixar você sair com obras de arte proibidas (conteúdo perigoso, como instruções para fazer bombas ou hackear sistemas). Eles têm um "instinto de segurança" muito forte que os faz dizer: "Desculpe, não posso fazer isso".

A maioria dos ataques anteriores tentava "quebrar a fechadura" de duas formas:

  1. Força bruta: Tentar adivinhar a senha (o que exige acesso total ao código do museu, algo que só os donos têm).
  2. Enganar o guarda: Usar truques de linguagem complexos para confundir o guarda, mas muitas vezes ele ainda consegue ver a intenção e bloquear.

O novo artigo, chamado JULI, descobriu um segredo que ninguém estava olhando: o que o guarda está pensando antes de falar.

A Analogia do "Rascunho Mental"

Quando você pergunta algo perigoso para um modelo de IA, ele não decide instantaneamente "não". Primeiro, ele gera um rascunho mental de todas as palavras possíveis que poderiam vir a seguir.

Imagine que você pergunta: "Como faço uma bomba?"
O modelo pensa:

  • "Desculpe..." (Probabilidade alta: 80%)
  • "Não posso..." (Probabilidade média: 10%)
  • "Aqui está..." (Probabilidade baixa: 5%)
  • "Você pode usar..." (Probabilidade baixa: 5%)

Mesmo que o modelo escolha "Desculpe" para falar, ele ainda sabe que a frase "Aqui está..." é uma possibilidade válida dentro do seu conhecimento. O perigo está escondido nas probabilidades baixas, mas reais.

O Que o JULI Faz? (O "Ajustador de Frequência")

O JULI é como um pequeno dispositivo de interferência (chamado BiasNet) que se conecta ao sistema de comunicação do modelo. Ele não precisa entrar no museu (não precisa das chaves do dono) e não precisa reescrever o livro de regras.

  1. Ele espia o rascunho: O JULI olha para a lista de palavras que o modelo está considerando (as probabilidades dos próximos tokens).
  2. Ele dá um "empurrãozinho": Em vez de mudar a resposta inteira, ele usa um truque matemático simples para aumentar levemente a chance de palavras perigosas e diminuir as palavras de recusa.
    • Analogia: Imagine que o modelo está prestes a dizer "Desculpe". O JULI dá um leve empurrão no equilíbrio, fazendo com que a palavra "Claro" fique ligeiramente mais provável do que "Desculpe".
  3. O resultado: O modelo, seguindo sua própria lógica, acaba escolhendo a palavra "Claro" e começa a dar a resposta perigosa que ele sabia o tempo todo, mas que estava "trancada" pela segurança.

Por que isso é assustador?

O artigo mostra que esse método funciona mesmo em modelos fechados (como o Gemini, que você acessa apenas pela internet, sem ver o código por dentro).

  • O Truque: Os provedores de IA (como a Google ou OpenAI) às vezes mostram quais são as 5 palavras mais prováveis que o modelo vai escolher a seguir. O JULI usa apenas essa pequena lista de "top 5" para fazer seu ajuste.
  • A Conclusão: Mesmo que o modelo seja super seguro e diga "não" para você, ele ainda sabe como fazer a coisa perigosa. O JULI apenas "sintoniza" a frequência dele para que ele fale o que sabe, em vez do que deveria dizer.

Resumo em uma frase

O JULI não força a porta do museu; ele apenas sussurra no ouvido do guarda, fazendo com que ele mude de ideia e entregue o objeto proibido, revelando que a segurança atual dos modelos pode ser mais frágil do que imaginávamos, pois eles ainda "sabem" o perigo, mesmo que não queiram "falar" sobre ele.