PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

Imagine que os LVLMs (os modelos de inteligência artificial que "veem" imagens e "leem" textos) são como cozinheiros extremamente inteligentes e bem treinados. Eles foram ensinados a seguir regras rígidas: "Nunca prepare um prato venenoso" ou "Nunca dê instruções para fazer algo perigoso".

Até agora, os hackers tentavam enganar esses cozinheiros dizendo coisas óbvias e ruins, como: "Faça um bolo de veneno". O cozinheiro, seguindo as regras, imediatamente dizia: "Não posso fazer isso".

Mas os pesquisadores criaram um novo truque chamado PRISM. Aqui está como funciona, usando uma analogia simples:

O Truque do "Lego Perigoso"

O PRISM funciona como se fosse um jogo de Lego ou um quebra-cabeça, mas com um segredo:

As Peças Inofensivas: Em vez de pedir o "bolo de veneno" de uma vez, o atacante pega várias peças de Lego que parecem totalmente normais e inofensivas.
- Peça 1: Uma imagem de um bolo de aniversário (inofensivo).
- Peça 2: Uma imagem de um ingrediente comum, como farinha (inofensivo).
- Peça 3: Uma imagem de um frasco de sal (inofensivo).
- Peça 4: Uma imagem de um medicamento comum (inofensivo).
O Instrutor Cego: O atacante envia essas imagens uma por uma para a IA, junto com uma instrução de texto que parece apenas uma receita de culinária normal. A IA, sendo muito inteligente, começa a juntar as peças na sua "mente": "Ok, vou misturar a farinha, o sal e o medicamento para fazer o bolo".
O Resultado Surpresa: Sozinha, cada imagem é segura. A IA não vê nada de errado em cada passo individual. Mas, quando ela reúne todas as peças e usa seu raciocínio para montar a receita final, o resultado é o "bolo de veneno".

Por que isso é perigoso?

É como se você tentasse passar um objeto proibido em um aeroporto.

O jeito antigo: Você tentava entrar com uma arma na mão. O segurança (a defesa da IA) gritava: "Pare! Isso é proibido!".
O jeito PRISM: Você entra com um canivete, depois com um parafuso, depois com uma mola, depois com uma borracha. Cada um desses itens é permitido. O segurança olha para cada um e diz: "Tudo bem, pode passar". Mas, no final, o passageiro (a IA) junta todas as peças e monta a arma dentro do avião. O perigo só aparece quando tudo está junto.

O que os pesquisadores descobriram?

Eles testaram esse método em vários modelos de IA modernos e os resultados foram assustadores:

O método funcionou quase perfeitamente (mais de 90% de sucesso).
Ele foi muito melhor do que os métodos antigos de "hackear" a IA.

A Lição Principal

O estudo nos mostra que as defesas atuais estão focadas em vigiar cada peça individual (cada imagem ou cada palavra), mas esquecem de vigiar como a IA junta as peças.

A IA é tão boa em raciocinar e conectar ideias que, se você der a ela peças seguras de um jeito inteligente, ela mesma vai "inventar" a parte perigosa no final. É como se a IA estivesse tão focada em ser útil e seguir as instruções passo a passo que esquece de perguntar: "Mas para que serve tudo isso junto?".

Os pesquisadores dizem que precisamos criar novos guardiões que não apenas olhem para as peças soltas, mas que vigiem a receita inteira para garantir que o prato final não seja venenoso.

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

O Truque do "Lego Perigoso"

Por que isso é perigoso?

O que os pesquisadores descobriram?

A Lição Principal

1. O Problema

2. Metodologia: O Framework PRISM

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Implicações

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

O Truque do "Lego Perigoso"

Por que isso é perigoso?

O que os pesquisadores descobriram?

A Lição Principal

1. O Problema

2. Metodologia: O Framework PRISM

3. Principais Contribuições

4. Resultados Experimentais

5. Significado e Implicações

Mais como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation