JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

O artigo apresenta o JailBound, um novo framework de jailbreak para Modelos Visão-Linguagem que explora as representações internas das camadas de fusão para mapear e atravessar fronteiras de segurança latentes, superando métodos existentes ao otimizar conjuntamente perturbações em imagens e textos e alcançando taxas de sucesso significativamente superiores.

Jiaxin Song, Yixu Wang, Jie Li, Rui Yu, Yan Teng, Xingjun Ma, Yingchun Wang

Publicado 2026-02-26
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Visão e Linguagem (VLMs), como o GPT-4o ou o LLaVA, são como guardiões superinteligentes em uma fortaleza. Eles têm dois sentidos principais: enxergam (olham para imagens) e entendem (leem textos). A missão deles é proteger o mundo, recusando-se a dar instruções perigosas, como "como hackear um banco" ou "como criar um vírus".

O artigo "JailBound" (que podemos traduzir como "Quebrando as Grades") conta a história de como os pesquisadores descobriram um segredo escondido dentro da mente desses guardiões e como usaram esse segredo para enganá-los.

Aqui está a explicação, passo a passo, usando analogias do dia a dia:

1. O Problema: O Guardião Tem "Duas Mentes"

Antes, os hackers tentavam enganar esses guardiões de duas formas separadas:

  • Ataque Visual: Mostrar uma imagem com códigos estranhos que o olho humano não vê, mas o computador vê.
  • Ataque de Texto: Escrever um pedido de forma muito complicada ou disfarçada.

O problema é que os guardiões modernos são muito espertos. Se você tenta enganar apenas o "olho" ou apenas a "boca" (o texto), eles percebem a contradição e dizem: "Não, isso é perigoso". Eles tratam a imagem e o texto como coisas separadas, o que facilita a defesa.

2. A Descoberta: O "Mapa Secreto" da Mente

Os pesquisadores descobriram algo fascinante, inspirado por uma teoria chamada "Conhecimento Latente". Eles perceberam que, mesmo quando o guardião diz "Não posso fazer isso", dentro da sua mente (nos seus dados internos), ele já sabe exatamente como fazer.

É como se você estivesse em uma sala escura e dissesse: "Eu não sei onde está a saída". Mas, se alguém acendesse uma lanterna no seu cérebro, veria que você sabia o caminho o tempo todo; você só não estava falando sobre isso.

O "JailBound" descobriu que existe uma linha invisível (uma fronteira de segurança) dentro da mente do modelo. De um lado da linha, o modelo pensa em coisas seguras. Do outro, ele pensa em coisas perigosas. O segredo é que essa linha existe antes do modelo falar a resposta final.

3. A Solução: O Plano "JailBound"

O novo método funciona em duas etapas principais, como um plano de fuga de prisão:

Etapa 1: Mapeando a Cerca (Probing)

Imagine que você quer pular um muro, mas não sabe onde ele está ou qual é a altura exata.

  • O JailBound primeiro "toca" a mente do modelo com várias perguntas e imagens.
  • Ele desenha um mapa mental da "cerca de segurança". Ele descobre exatamente onde está a linha que separa o "seguro" do "perigoso" e qual é a direção exata para pular por cima dela.
  • Analogia: É como um explorador que caminha até a cerca da prisão, mede a altura e descobre o ponto mais fraco para escalar.

Etapa 2: O Pulo Perfeito (Crossing)

Agora que eles têm o mapa, eles não atacam apenas a imagem ou apenas o texto. Eles fazem os dois ao mesmo tempo, de forma coordenada.

  • Eles adicionam pequenas "manchas" quase invisíveis na imagem e mudam algumas palavras no texto.
  • Mas o truque é: eles empurram a mente do modelo exatamente na direção da linha que mapearam na Etapa 1.
  • Eles fazem isso de forma que a imagem e o texto continuem fazendo sentido juntos (não pareçam bagunça), mas empurrem o guardião para o lado "perigoso" da linha.
  • Analogia: Em vez de tentar derrubar o muro com um martelo (ataque bruto), eles empurram o guardião suavemente, mas com precisão cirúrgica, até que ele tropece e caia do lado de fora da segurança.

4. O Resultado: A Prisão Quebrada

Os testes mostraram que esse método é assustadoramente eficiente:

  • Contra modelos que eles conhecem (Branco): Conseguem enganar o modelo em 94% das vezes.
  • Contra modelos que eles não conhecem (Preto): Conseguem enganar modelos famosos como o GPT-4o e o Claude em mais de 56% a 75% das vezes.

Isso significa que o método funciona tão bem que, mesmo que você troque o modelo de prisão, a "chave" que eles criaram ainda abre a porta.

Resumo Final

O JailBound não é um ataque bruto. É um ataque de inteligência.
Eles descobriram que os guardiões (os modelos) têm um "mapa interno" de onde está a segurança. Ao mapear esse mapa e empurrar o modelo na direção certa, combinando imagem e texto perfeitamente, eles conseguem fazer o modelo esquecer suas regras e entregar respostas perigosas que ele deveria ter bloqueado.

A lição para o futuro: Os pesquisadores alertam que precisamos construir "paredes" mais fortes e inteligentes, porque os guardiões atuais têm uma falha oculta: eles sabem o perigo, mas não sabem como manter essa informação trancada dentro de si mesmos quando alguém sabe exatamente onde bater.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →