Toward Securing AI Agents Like Operating Systems

Autores originais: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

Publicado 2026-05-15✓ Author reviewed ⓘ

📖 6 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

CC BY 4.0

Autores originais: Lukas Pirch, Micha Horlboge, Patrick Großmann, Syeda Mahnur Asif, Klim Kireev, Thorsten Holz, Konrad Rieck

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você contratou um assistente pessoal superinteligente e incrivelmente entusiasta chamado "Agente". Este assistente pode ler seus e-mails, gerenciar seu calendário, reservar voos e até mesmo escrever código para você. É como ter um funcionário mágico que nunca dorme.

Mas eis o problema: você deu a este funcionário as chaves de toda a sua casa, sua conta bancária e seu diário. Se um ladrão astuto enganar o assistente fazendo-o pensar que é você, ou convencê-lo a abrir a porta dos fundos, o ladrão leva tudo.

Este é o problema central que o artigo aborda. Os autores argumentam que estamos construindo esses agentes de IA como se fossem criaturas mágicas totalmente novas, mas deveríamos, na verdade, tratá-los como Sistemas Operacionais (o software que executa seu computador, como Windows ou macOS).

Aqui está a análise de suas descobertas, usando analogias simples:

1. A Grande Ideia: O Agente é o Sistema Operacional

Os autores dizem: "Pare de pensar na IA apenas como um chatbot. Pense nela como o SO da sua vida digital."

A IA (LLM) é o Usuário: Em um computador, o usuário digita comandos. Em um agente de IA, o Modelo de Linguagem de Grande Porte (o "cérebro") é quem digita os comandos. Mas, assim como um usuário humano pode ser enganado por um e-mail de phishing, uma IA pode ser enganada por um prompt de "jailbreak".
As Ferramentas são Chamadas de Sistema: Quando você clica em "Imprimir" no seu computador, o SO verifica se você tem permissão. Quando uma IA deseja "enviar um e-mail", isso é uma ferramenta. O artigo argumenta que essas ferramentas devem ser tratadas como chamadas de sistema estritas, não como comandos sem restrições.
O Ambiente de Execução é o Kernel: A parte do software que realmente executa o código é o "Kernel". Em um computador seguro, o Kernel é o chefe. Ele decide quem pode tocar em quê. Nos agentes de IA atuais, o "Kernel" é frequentemente muito gentil e permite que o "Usuário" (a IA) faça o que quiser, mesmo que seja perigoso.

2. O Problema: A Festa "Casa Aberta"

O artigo analisa agentes de IA populares (como OpenClaw e seus primos) e descobre que são construídos como uma casa aberta onde qualquer pessoa pode entrar e tocar em qualquer coisa.

Sem Paredes: Em um computador seguro, programas diferentes estão isolados. Se um vírus infectar seu aplicativo de calculadora, ele não deveria conseguir ler seus arquivos bancários. Mas nestes agentes de IA, a "calculadora" (uma ferramenta) e os "arquivos bancários" (memória) estão todos na mesma sala. Se a IA ficar confusa, ela pode misturá-los acidentalmente (ou maliciosamente).
A Falácia "Confie em Mim": Esses agentes dependem da IA para "lembrar" de ser segura. Eles têm regras como "Não exclua arquivos", mas estão escritas apenas em inglês comum. Se um hacker sussurrar um truque para a IA, ela esquece a regra. É como pedir a um guarda para ficar de vigia, mas dizendo a ele: "Apenas use seu melhor julgamento".
O Risco de "Terceiros": Esses agentes permitem que você instale "habilidades" (como aplicativos). Imagine se você pudesse baixar um "App de Clima" que secretamente tivesse uma porta dos fundos para sua conta bancária. O artigo descobriu que muitos desses agentes permitem que você instale essas habilidades sem verificar se são seguras.

3. O Experimento: Quebrando os Agentes

Os pesquisadores pegaram quatro agentes de IA populares e tentaram quebrá-los, agindo como um hacker com habilidades modestas. Eles não precisavam ser gênios; apenas precisavam saber como a "casa" foi construída.

O que eles descobriram:

OpenClaw (O Agente "Vanilla"): Este era o mais popular. Era vulnerável a todos e cada um dos ataques que os pesquisadores tentaram. Era como deixar a porta da frente, a porta dos fundos e as janelas totalmente abertas.
IronClaw (O Agente "Segurança"): Este tentou ser mais seguro. Ele colocou algumas ferramentas em uma "caixa de areia" (sandbox) (uma caixa de vidro onde elas não podem tocar no resto da casa). Ele se saiu melhor, mas os pesquisadores ainda encontraram maneiras de enganá-lo ou quebrar o vidro.
Nanobot (O Agente "Mínimo"): Este tinha muito pouco código, esperando que menos código significasse menos bugs. Mas mesmo com uma base de código pequena, ainda faltavam as "paredes" básicas necessárias para manter os dados separados.
NemoClaw (O Agente "Wrapper"): Este colocou todo o agente dentro de um contêiner seguro (como um contêiner de transporte). Foi o mais difícil de quebrar, mas os pesquisadores ainda encontraram uma maneira de espiar dentro ou enganá-lo.

O Resultado Chocante: Mesmo as versões "seguras" falharam em coisas básicas, como impedir que um usuário leia as anotações privadas de outro usuário, ou impedir que o agente envie mensagens para estranhos.

4. A Solução: Pegando Emprestado do Passado

A principal conclusão do artigo é simples: Não precisamos inventar nova magia para corrigir isso. Precisamos apenas usar as regras de segurança que conhecemos há 50 anos.

Sistemas operacionais já resolveram esses problemas exatamente antes. Os autores sugerem que apliquemos essas regras de época antiga à IA:

Isolamento: Coloque cada ferramenta em sua própria caixa de vidro (sandbox) para que não possa tocar em outras ferramentas ou em seus arquivos privados, a menos que explicitamente permitido.
Privilégio Mínimo: Apenas porque o agente pode ler seu e-mail não significa que ele deve. Dê a ele apenas as chaves de que precisa para a tarefa específica em mãos.
Registro Reforçado: Mantenha um registro de tudo o que o agente faz, mas certifique-se de que o agente não possa excluir ou alterar esses registros (como uma câmera de segurança à prova de adulteração).
Limites Estritos: Não deixe a IA decidir o que é seguro. O "Kernel" (o sistema) deve fazer cumprir as regras, não o "cérebro" da IA.

Resumo

O artigo argumenta que os agentes de IA são atualmente construídos como fronteiras selvagens e desreguladas. Eles são poderosos, mas perigosos porque misturam dados sensíveis com instruções não confiáveis.

Os autores dizem: "Pare de tentar tornar a IA 'mais inteligente' para ser segura. Em vez disso, construa o sistema ao seu redor como um Sistema Operacional seguro." Se tratarmos a IA como um usuário que precisa ser vigiado e restringido por um guarda de segurança rigoroso (o SO), podemos tornar essas ferramentas poderosas seguras para uso em nossas casas e empresas.

A Conclusão Final: Estamos construindo funcionários digitais com chaves mestras para nossas vidas, mas ainda não construímos os cadeados, as cercas ou os guardas de segurança. É hora de pegar emprestados os projetos dos especialistas em segurança de computador que vêm construindo esses cadeados há décadas.

1. A Grande Ideia: O Agente é o Sistema Operacional

2. O Problema: A Festa "Casa Aberta"

3. O Experimento: Quebrando os Agentes

4. A Solução: Pegando Emprestado do Passado

Resumo

Resumo Técnico: Rumo à Segurança de Agentes de IA como Sistemas Operacionais

Declaração do Problema

Metodologia

Principais Contribuições

Resultados

Significado e Alegações

Toward Securing AI Agents Like Operating Systems

1. A Grande Ideia: O Agente é o Sistema Operacional

2. O Problema: A Festa "Casa Aberta"

3. O Experimento: Quebrando os Agentes

4. A Solução: Pegando Emprestado do Passado

Resumo

Resumo Técnico: Rumo à Segurança de Agentes de IA como Sistemas Operacionais

Declaração do Problema

Metodologia

Principais Contribuições

Resultados

Significado e Alegações

Mais como este