CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

O artigo apresenta o "Single-Shot Planning" para Agentes de Uso de Computador, uma arquitetura de segurança que gera um plano de execução completo antes de observar o ambiente, garantindo integridade contra injeções de prompt e ataques de desvio de ramificação enquanto mantém ou melhora o desempenho em modelos de IA.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao

Publicado 2026-03-10
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

🤖 CAMELS (Camelos) e Computadores: Como Proteger Robôs que Usam o PC

Imagine que você contratou um assistente robô superinteligente para fazer tarefas no seu computador. Ele pode abrir o navegador, clicar em botões, ler e-mails e baixar arquivos. O problema? Esse robô é um pouco "ingênuo". Se você mostrar a ele um site com um anúncio falso que diz "Clique aqui para ganhar um milhão", ele pode clicar sem pensar, roubar suas senhas ou gastar seu dinheiro.

Esse é o problema que os autores deste artigo chamam de "Injeção de Prompt": o robô é enganado por instruções maliciosas escondidas na tela.

O artigo propõe uma solução genial, chamada CAMELS, que funciona como um sistema de segurança de dois níveis para esses robôs. Vamos entender como funciona com uma analogia simples.

1. O Problema: O Chefe e o Mensageiro

Antes, os robôs funcionavam como um único funcionário que fazia tudo: olhava a tela, pensava o que fazer e agia. Se alguém colocasse uma nota falsa na tela dizendo "Não clique no botão azul, clique no vermelho!", o robô obedecia.

A solução tradicional de segurança seria: "Ok, vamos separar o pensamento da ação".

  • O Chefe (Planejador): Um robô muito inteligente e confiável que fica numa sala trancada. Ele nunca vê a tela do computador. Ele apenas recebe a tarefa ("Vá até o site de notícias") e escreve um roteiro detalhado.
  • O Mensageiro (Percepção): Um robô que fica na sala de estar, olhando a tela. Ele só segue o roteiro do Chefe. Ele não pode mudar as regras, apenas executar o que foi escrito.

O Dilema: Como o Mensageiro pode saber se o site de notícias está aberto ou se há um anúncio de cookies bloqueando a tela? Se ele não puder ver a tela para ajustar o plano, ele trava. Se ele puder ver a tela, ele pode ser enganado.

2. A Solução: O "Plano Único" (Single-Shot Planning)

Os autores descobriram que, embora a tela do computador mude o tempo todo, os caminhos que precisamos seguir são previsíveis. É como dirigir para o trabalho: o trânsito muda, mas você sabe que precisa virar na esquerda, depois na direita e parar no semáforo.

Eles criaram um método chamado "Planejamento Único":

  1. O Chefe (P-LLM) escreve todo o roteiro de uma vez, antes de o robô ver qualquer coisa.
  2. O roteiro não é apenas uma lista de passos, é um mapa com desvios.
    • Exemplo do roteiro: "Vá para o site. SE aparecer uma janela de cookies, clique em 'Aceitar'. SE não aparecer, vá direto para a busca. SE o site não carregar, tente de novo."
  3. O Mensageiro (Q-VLM) apenas olha a tela, verifica em qual situação está (tem cookies? não tem?) e segue o caminho que o Chefe já desenhou.

A Mágica: Como o Chefe nunca viu a tela, ele não pode ser enganado por anúncios falsos. Ele só escreveu regras lógicas. O Mensageiro só executa essas regras. Isso garante que o robô nunca saia do roteiro aprovado.

3. O Novo Vilão: O "Desvio de Ramo" (Branch Steering)

Aqui entra a parte mais interessante. O sistema é seguro contra o robô fazer coisas aleatórias, mas os autores descobriram uma nova maneira de enganar o sistema, chamada "Desvio de Ramo".

A Analogia do Sinal de Trânsito Falso:
Imagine que o roteiro do Chefe diz: "Se o sinal estiver verde, siga em frente. Se estiver vermelho, pare".
O vilão não consegue fazer o robô ir para a lua (isso seria um ataque de controle). Mas o vilão pode pintar um sinal falso na rua.

  • O Mensageiro olha a tela e vê o sinal "falso" (que na verdade é um botão de anúncio disfarçado de botão de "Aceitar Cookies").
  • O Mensageiro diz ao Chefe: "Chefe, o sinal está verde!" (na verdade, é um sinal falso).
  • O Chefe, confiando no Mensageiro, diz: "Ok, siga em frente".
  • O robô segue em frente e cai na armadilha.

O robô está seguindo as regras corretas, mas foi enganado para escolher o caminho errado dentro das regras permitidas.

4. Como se Defender? (O Duplo Checagem)

Para impedir esse "Desvio de Ramo", o sistema usa uma Redundância (como ter dois guardas).

  • Quando o Mensageiro diz "Vi um botão de Cookies", um Segundo Guardião (outro robô) olha a mesma tela e diz: "Espere, isso é um anúncio falso!" ou "Sim, é um botão real".
  • Se os dois robôs discordarem, o sistema para e avisa o usuário.

5. Os Resultados: Vale a pena?

Os autores testaram isso em um mundo real de computadores (chamado OSWorld).

  • Segurança: O sistema bloqueia quase todos os ataques de roubo de dados.
  • Eficiência:
    • Para robôs pequenos e baratos (código aberto), a segurança melhorou o desempenho em até 19% (porque o planejamento único os força a pensar melhor).
    • Para robôs gigantes e caros, eles mantiveram cerca de 57% da capacidade original. É uma pequena perda de velocidade em troca de uma segurança total.

🎯 Resumo Final

Este artigo nos ensina que podemos ter robôs seguros usando computadores, desde que:

  1. Separemos quem planeja (o cérebro confiável) de quem olha (os olhos que podem ser enganados).
  2. O planejamento seja feito antes de ver o perigo, com regras para todos os cenários possíveis.
  3. Usemos dois robôs para conferir se o que está na tela é real ou uma armadilha.

É como ter um maestro que escreve a música inteira antes de ouvir a orquestra tocar, e um segundo maestro que garante que nenhum músico está tocando uma nota errada por engano. Assim, a música (a tarefa) sai perfeita e segura!