JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Modelos de Visão e Linguagem (VLMs), como o GPT-4o ou o LLaVA, são como guardiões superinteligentes em uma fortaleza. Eles têm dois sentidos principais: enxergam (olham para imagens) e entendem (leem textos). A missão deles é proteger o mundo, recusando-se a dar instruções perigosas, como "como hackear um banco" ou "como criar um vírus".

O artigo "JailBound" (que podemos traduzir como "Quebrando as Grades") conta a história de como os pesquisadores descobriram um segredo escondido dentro da mente desses guardiões e como usaram esse segredo para enganá-los.

Aqui está a explicação, passo a passo, usando analogias do dia a dia:

1. O Problema: O Guardião Tem "Duas Mentes"

Antes, os hackers tentavam enganar esses guardiões de duas formas separadas:

Ataque Visual: Mostrar uma imagem com códigos estranhos que o olho humano não vê, mas o computador vê.
Ataque de Texto: Escrever um pedido de forma muito complicada ou disfarçada.

O problema é que os guardiões modernos são muito espertos. Se você tenta enganar apenas o "olho" ou apenas a "boca" (o texto), eles percebem a contradição e dizem: "Não, isso é perigoso". Eles tratam a imagem e o texto como coisas separadas, o que facilita a defesa.

2. A Descoberta: O "Mapa Secreto" da Mente

Os pesquisadores descobriram algo fascinante, inspirado por uma teoria chamada "Conhecimento Latente". Eles perceberam que, mesmo quando o guardião diz "Não posso fazer isso", dentro da sua mente (nos seus dados internos), ele já sabe exatamente como fazer.

É como se você estivesse em uma sala escura e dissesse: "Eu não sei onde está a saída". Mas, se alguém acendesse uma lanterna no seu cérebro, veria que você sabia o caminho o tempo todo; você só não estava falando sobre isso.

O "JailBound" descobriu que existe uma linha invisível (uma fronteira de segurança) dentro da mente do modelo. De um lado da linha, o modelo pensa em coisas seguras. Do outro, ele pensa em coisas perigosas. O segredo é que essa linha existe antes do modelo falar a resposta final.

3. A Solução: O Plano "JailBound"

O novo método funciona em duas etapas principais, como um plano de fuga de prisão:

Etapa 1: Mapeando a Cerca (Probing)

Imagine que você quer pular um muro, mas não sabe onde ele está ou qual é a altura exata.

O JailBound primeiro "toca" a mente do modelo com várias perguntas e imagens.
Ele desenha um mapa mental da "cerca de segurança". Ele descobre exatamente onde está a linha que separa o "seguro" do "perigoso" e qual é a direção exata para pular por cima dela.
Analogia: É como um explorador que caminha até a cerca da prisão, mede a altura e descobre o ponto mais fraco para escalar.

Etapa 2: O Pulo Perfeito (Crossing)

Agora que eles têm o mapa, eles não atacam apenas a imagem ou apenas o texto. Eles fazem os dois ao mesmo tempo, de forma coordenada.

Eles adicionam pequenas "manchas" quase invisíveis na imagem e mudam algumas palavras no texto.
Mas o truque é: eles empurram a mente do modelo exatamente na direção da linha que mapearam na Etapa 1.
Eles fazem isso de forma que a imagem e o texto continuem fazendo sentido juntos (não pareçam bagunça), mas empurrem o guardião para o lado "perigoso" da linha.
Analogia: Em vez de tentar derrubar o muro com um martelo (ataque bruto), eles empurram o guardião suavemente, mas com precisão cirúrgica, até que ele tropece e caia do lado de fora da segurança.

4. O Resultado: A Prisão Quebrada

Os testes mostraram que esse método é assustadoramente eficiente:

Contra modelos que eles conhecem (Branco): Conseguem enganar o modelo em 94% das vezes.
Contra modelos que eles não conhecem (Preto): Conseguem enganar modelos famosos como o GPT-4o e o Claude em mais de 56% a 75% das vezes.

Isso significa que o método funciona tão bem que, mesmo que você troque o modelo de prisão, a "chave" que eles criaram ainda abre a porta.

Resumo Final

O JailBound não é um ataque bruto. É um ataque de inteligência.
Eles descobriram que os guardiões (os modelos) têm um "mapa interno" de onde está a segurança. Ao mapear esse mapa e empurrar o modelo na direção certa, combinando imagem e texto perfeitamente, eles conseguem fazer o modelo esquecer suas regras e entregar respostas perigosas que ele deveria ter bloqueado.

A lição para o futuro: Os pesquisadores alertam que precisamos construir "paredes" mais fortes e inteligentes, porque os guardiões atuais têm uma falha oculta: eles sabem o perigo, mas não sabem como manter essa informação trancada dentro de si mesmos quando alguém sabe exatamente onde bater.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Modelos de Visão e Linguagem (VLMs) têm demonstrado desempenho impressionante, mas a integração de codificadores visuais poderosos ampliou significativamente sua superfície de ataque, tornando-os vulneráveis a ataques de "jailbreak" (quebra de restrições de segurança).

As abordagens existentes de jailbreak enfrentam duas limitações principais:

Falta de Direcionamento Preciso: Métodos baseados em gradiente frequentemente ficam presos em ótimos locais e carecem de uma direção de perturbação precisa para guiar o modelo para respostas inseguras.
Desacoplamento de Modalidades: A maioria dos métodos trata as entradas visuais e textuais de forma separada, negligenciando as interações cruciais entre as modalidades que ocorrem nas camadas de fusão interna do modelo.

Além disso, existe uma lacuna de conhecimento sobre como as informações de segurança são representadas internamente nos VLMs, especificamente se há uma "fronteira de decisão de segurança" latente que pode ser explorada.

2. Metodologia: JailBound

O JailBound é um novo framework de jailbreak no espaço latente inspirado no conceito de Eliciting Latent Knowledge (ELK). A premissa central é que os VLMs codificam informações relevantes para a segurança dentro de suas representações internas nas camadas de fusão, revelando uma fronteira de decisão implícita no espaço latente.

O framework opera em duas etapas principais:

Etapa 1: Sondagem da Fronteira de Segurança (Safety Boundary Probing)

Objetivo: Identificar e aproximar a fronteira de decisão de segurança latente dentro do modelo.
Mecanismo: O método treina classificadores lineares (regressão logística) nas representações fundidas (fusion-layer representations) de cada camada do modelo.
Processo:
- Coleta-se um conjunto de dados de pares (imagem, texto) rotulados como seguros ou inseguros.
- Treina-se um classificador para distinguir entre estados seguros e inseguros em cada camada de fusão.
- Calcula-se o vetor normal ( $v$ ) da fronteira de decisão e a magnitude mínima de perturbação ( $\epsilon$ ) necessária para cruzar essa fronteira.
- Isso fornece uma direção geométrica precisa para guiar as perturbações adversariais.

Etapa 2: Cruzamento da Fronteira de Segurança (Safety Boundary Crossing)

Objetivo: Otimizar conjuntamente perturbações na imagem e no texto para levar o estado interno do modelo para a região de respostas inseguras, mantendo a consistência semântica.
Mecanismo: Uma otimização iterativa conjunta que perturba simultaneamente a entrada visual e o texto (sufixo).
Funções de Perda (Objetivos):
1. Perda de Alinhamento Adversarial ( $L_{align}$ ): Guia a representação fundida perturbada para cruzar a fronteira de decisão em direção à região alvo (insegura).
2. Perda de Fronteira Geométrica ( $L_{geo}$ ): Garante que a perturbação siga a trajetória normal definida pela fronteira de segurança descoberta na etapa de sondagem.
3. Perda de Preservação Semântica ( $L_{sem}$ ): Restringe a magnitude das perturbações para garantir que o conteúdo semântico original (imagem e texto) permaneça legível e coerente.

3. Principais Contribuições

Novo Vetor de Ataque: Identificação e exploração da fronteira de decisão de segurança latente dentro das camadas de fusão dos VLMs como um novo vetor de jailbreak.
Framework de Duas Etapas: Proposta do JailBound, que combina a sondagem precisa da fronteira (usando classificadores por camada) com um ataque conjunto multimodal guiado por essa fronteira.
Otimização Conjunta Multimodal: Superação das limitações de ataques desacoplados, otimizando perturbações de imagem e texto simultaneamente para explorar interações cruzadas.
Alta Transferibilidade: Demonstração de que as vulnerabilidades exploradas são comuns entre diferentes arquiteturas de modelos, permitindo ataques eficazes em modelos "caixa-preta" (black-box).

4. Resultados Experimentais

Os autores avaliaram o JailBound em seis VLMs diferentes (incluindo LLaMA-3.2, Qwen2.5-VL, MiniGPT-4, GPT-4o, Gemini 2.0 e Claude 3.5) usando o benchmark MM-SafetyBench.

Ataques White-Box: O método alcançou uma taxa de sucesso médio (ASR) de 94,32%, superando os métodos mais avançados (SOTA) em 6,17%.
Ataques Black-Box (Transferência): O JailBound demonstrou excelente capacidade de transferência, alcançando ASRs médios de 67,28% em modelos comerciais fechados (GPT-4o, Gemini, Claude), o que representa um aumento de 21,13% em relação aos métodos existentes.
Desempenho por Categoria: O método superou consistentemente outras técnicas (como FigStep, VAJM e UMK) em todas as 13 categorias de segurança críticas, incluindo atividades ilegais, discurso de ódio, malware e danos físicos.
Análise de Ablação: A remoção de qualquer um dos componentes de perda (alinhamento, geometria ou semântica) resultou em queda significativa no desempenho ou na qualidade da resposta, validando a necessidade da abordagem integrada.

5. Significado e Conclusão

O trabalho expõe um risco de segurança negligenciado nos VLMs: a existência de fronteiras de decisão de segurança internas que podem ser mapeadas e cruzadas através de perturbações coordenadas de imagem e texto.

Implicação de Segurança: As defesas atuais, que muitas vezes tratam modalidades separadamente ou focam apenas na saída final, são insuficientes contra ataques que exploram o espaço latente de fusão.
Necessidade de Defesa: O estudo destaca a necessidade urgente de desenvolver mecanismos de alinhamento de segurança mais robustos que protejam as representações latentes internas e considerem a interação multimodal durante o processo de treinamento e inferência.
Contribuição Acadêmica: O paper conecta o campo de "Eliciting Latent Knowledge" (ELK) com a segurança de VLMs, provando que o conhecimento latente sobre segurança existe e pode ser explorado para contornar alinhamentos.

Em resumo, o JailBound demonstra que a segurança dos VLMs é mais frágil do que se pensava, pois as fronteiras de decisão internas são acessíveis e manipuláveis através de uma otimização geométrica precisa e conjunta de modalidades.