Runtime Governance for AI Agents: Policies on Paths

Each language version is independently generated for its own context, not a direct translation.

Imagine que você contratou um assistente virtual superinteligente para trabalhar na sua empresa. Ele não é um simples chatbot que responde perguntas; ele é um "agente" capaz de planejar, tomar decisões, acessar bancos de dados, enviar e-mails e até escrever códigos para si mesmo.

O problema é que, ao contrário de um funcionário humano ou de um software antigo, esse agente é imprevisível. Se você pedir a ele para "preparar um relatório financeiro", ele pode decidir fazer isso em 5 passos ou em 500 passos. Ele pode acessar os dados certos ou, sem querer, acessar dados confidenciais e enviar um e-mail para o concorrente.

O artigo que você leu, "Governança em Tempo Real para Agentes de IA", é como um manual de instruções para criar um sistema de segurança que funcione enquanto o agente trabalha, e não apenas antes ou depois.

Aqui está a explicação simplificada, usando analogias do dia a dia:

1. O Problema: O Agente é um "Caminho" e não um "Botão"

Antes, os sistemas de segurança funcionavam como porteiros de um prédio.

A abordagem antiga (Controle de Acesso): O porteiro olha seu crachá. Se você tem acesso ao "Departamento Financeiro", ele deixa você entrar. Se não tem, ele não deixa.
O problema com os Agentes: Imagine que o agente tem um crachá que permite entrar no Financeiro (para pegar dados) E no Correio (para enviar e-mails). O porteiro antigo deixa os dois acontecerem, porque cada ação individual é permitida.
O perigo: O agente entra no Financeiro, pega um segredo, e depois vai para o Correio e envia o segredo. O porteiro antigo não viu o problema, porque cada passo sozinho parecia inofensivo. O crime foi a sequência (o caminho), não o passo isolado.

2. A Solução: O "Guarda-Costas" que lê a Mente (Runtime Governance)

Os autores propõem um novo sistema: um Guarda-Costas em Tempo Real.

Em vez de apenas checar o crachá no início, esse guarda-costas observa o agente a cada segundo, perguntando:

"Ok, você acabou de ler o banco de dados de clientes. Agora você quer enviar um e-mail. Dada a sequência do que você fez até agora, isso é seguro?"

Se a resposta for "não", o guarda-costas para o agente antes que o e-mail seja enviado.

3. Como Funciona a "Fórmula Mágica" (O Framework)

Os autores criaram uma fórmula matemática para descrever como esse guarda-costas deve pensar. Eles chamam isso de Função de Política.

Imagine que a decisão de segurança depende de 4 coisas:

Quem é o agente? (É o "Robô de Vendas" ou o "Robô de RH"?)
O que ele já fez? (A "história" ou o "caminho" percorrido até agora).
O que ele quer fazer agora? (A próxima ação proposta).
O que está acontecendo na empresa? (Ex: "O setor de Vendas e o de Investimentos não podem se comunicar hoje").

O sistema calcula a probabilidade de que essa próxima ação cause um desastre. Se a probabilidade for alta, ele bloqueia.

4. Por que as Soluções Atuais Não Funcionam?

O artigo explica por que as ferramentas que temos hoje são insuficientes:

Pedir para o Agente "Ser Educado" (Prompts): É como dar um conselho a um motorista: "Por favor, não dirija rápido". A maioria obedece, mas se ele estiver distraído ou for mal-intencionado, ele vai rápido mesmo assim. Não é uma garantia.
Bloquear Ferramentas (Controle de Acesso): É como tirar o volante do carro. Se o agente não pode usar o e-mail, ele não envia e-mail. Mas isso também impede que ele faça o trabalho útil. Além disso, não impede que ele use outras ferramentas para vazar dados.
Pedir Aprovação Humana: É como ter um chefe que precisa assinar cada e-mail. Funciona, mas se você tem 1.000 agentes trabalhando, o chefe vai ficar louco tentando assinar tudo. O sistema precisa filtrar o que é realmente perigoso.

5. A Analogia do "Trator de Neve" vs. "GPS Inteligente"

O software antigo é como um trator de neve que limpa a rua de qualquer jeito. Se a rua estiver bloqueada, ele empurra.
O Agente de IA é como um carro autônomo que decide sozinho qual rota tomar.
A Governança em Tempo Real é um GPS inteligente que não apenas diz "vire à direita", mas monitora o trânsito, o clima e o histórico do motorista. Se o carro autônomo tentar fazer uma manobra perigosa baseada no que ele viu 5 minutos atrás, o GPS corta o motor antes que ele bata.

6. O Que Isso Significa para o Futuro (e a Lei Europeia)

A União Europeia está criando leis (como o AI Act) que exigem que sistemas de IA de alto risco sejam seguros. Este artigo diz:

"Para cumprir a lei, você não pode apenas configurar o robô no início. Você precisa ter um sistema que vigie cada passo que ele dá, em tempo real, e que possa parar o robô se ele começar a seguir um caminho perigoso."

Resumo em Uma Frase

Este paper diz que não podemos confiar apenas em regras fixas ou em pedir para a IA "ser boa". Precisamos de um sistema de vigilância inteligente que entenda o contexto e a história de cada ação do agente, garantindo que, mesmo que o agente tome decisões aleatórias, ele nunca complete um caminho que viole as regras da empresa.

É a diferença entre ter um porteiro que olha o crachá e ter um segurança que lê a mente e o histórico de cada movimento.

Each language version is independently generated for its own context, not a direct translation.

Título: Governança em Tempo de Execução para Agentes de IA: Políticas sobre Caminhos

Autores: Maurits Kaptein, Vassilis-Javed Khan, Andriy Podstavnychy
Data: Março de 2026 (Contexto futuro do artigo)

1. O Problema

A implementação de Agentes de IA (sistemas que usam Grandes Modelos de Linguagem - LLMs para planejar, raciocinar e agir autonomamente) apresenta um desafio de governança fundamentalmente diferente do software tradicional ou de sistemas de IA de consulta única.

Não-Determinismo e Dependência de Caminho: O comportamento de um agente não é pré-determinado; ele gera uma sequência de ações (caminho de execução) que varia a cada execução devido à natureza estocástica dos LLMs.
Limitações das Violações Isoladas: As violações de conformidade (exfiltração de dados, quebra de barreiras de informação, comunicação não autorizada) são frequentemente propriedades de sequências de ações, e não de ações individuais. Um único passo (ex: ler um banco de dados) pode ser inofensivo, mas seguido por outro (ex: enviar um e-mail externo), torna-se uma violação.
Ineficácia dos Métodos Atuais:
- Prompts (Instruções): Reduzem a probabilidade de caminhos ruins, mas não garantem a execução.
- Controle de Acesso (RBAC): Bloqueia categorias de ações, mas não considera o contexto ou o histórico de ações anteriores (dependência de caminho).
- Guardrails Internos: Podem ser contornados se o agente tiver capacidade de auto-modificação (código).
- Aprovação Humana: Não resolve o problema de escala e pode ser contornada se o agente chegar ao ponto de aprovação através de passos individualmente inofensivos que, em conjunto, violam a política.

O artigo argumenta que a lacuna entre o que as organizações estão implantando e o que conseguem governar é o principal obstáculo para a adoção responsável de agentes, especialmente com a entrada em vigor da Lei de IA da UE (EU AI Act) em agosto de 2026.

2. Metodologia e Framework Formal

Os autores propõem um framework formal para governança em tempo de execução, onde o objeto central de governança é o caminho de execução (execution path).

Definições Fundamentais:

Caminho de Execução ( $P$ ): Uma sequência finita de passos discretos ( $s_1, s_2, ..., s_n$ $s_{1}, s_{2}, ..., s_{n}$ ). Cada passo é uma tripla: tipo de passo ( $\tau$ $τ$ ), dados de entrada ( $d_{in}$ $d_{in}$ ) e dados de saída observados ( $d_{out}$ $d_{o u t}$ ).
- Tipos de Passos: Estocástico (chamada ao LLM), Determinístico (ferramentas/APIs) e Composto (delegação a outro agente).
Função de Política ( $\pi_j$ ): Uma função determinística que mapeia a identidade do agente ( $A$ $A$ ), o caminho parcial atual ( $P_i$ $P_{i}$ ), a próxima ação proposta ( $s^*$ $s^{*}$ ) e o estado compartilhado de governança ( $\Sigma$ $Σ$ ) para uma probabilidade de violação no intervalo $[0, 1]$ $[0, 1]$ .
- $\pi_j(A, P_i, s^*, \Sigma) \rightarrow [0, 1]$
- A natureza determinística é crucial para auditoria e reprodutibilidade.
Motor de Política (Policy Engine): O componente organizacional que intercepta ações propostas, avalia todas as políticas ativas, mantém o estado compartilhado ( $\Sigma$ ) e aplica intervenções.
Objetivo de Governança: Maximizar a utilidade esperada das tarefas (sucesso) mantendo a pontuação de violação terminal esperada ( $E[v_T]$ ) dentro de um orçamento de risco ( $B$ ) aceitável.

Relação com Abordagens Existentes:

O framework demonstra que as abordagens atuais são casos especiais (ou não-casos) da governança em tempo de execução:

Prompts: Não são instâncias da função de política; eles apenas alteram a distribuição de probabilidade dos caminhos futuros sem avaliá-los.
Controle de Acesso: É um caso degenerado da função de política onde $P_i$ , $d_{in}$ e $\Sigma$ são ignorados (apenas verifica identidade e tipo de ação).
Avaliação em Tempo de Execução: É o caso geral necessário para qualquer política dependente de caminho.

3. Contribuições Principais

Framework Unificado: Apresenta um modelo formal onde mecanismos de governança existentes são vistos como subconjuntos de uma estrutura única, esclarecendo o que cada um pode e não pode fazer.
Escopo Organizacional: Conecta a avaliação passo a passo a um objetivo de risco agregado para toda a frota de agentes, permitindo o gerenciamento de barreiras de informação entre múltiplos agentes.
Especificação de Políticas Concretas: Fornece exemplos práticos de políticas inspiradas na Lei de IA da UE, como:
- Integridade do Agente: Detecção de auto-modificação via hash criptográfico.
- Requisito de Prévio PII: Exigir uma etapa de classificação antes de acessar dados pessoais.
- Prevenção de Exfiltração: Pontuação graduada baseada na sensibilidade dos dados acessados anteriormente.
- Barreiras de Informação: Bloqueio de ações que cruzam dados de lados opostos de uma barreira (requer estado compartilhado $\Sigma$ ).
Arquitetura de Referência: Descreve uma implementação (Kyvvu B.V.) que opera em modo prospectivo (interceptação antes da execução), utilizando vetores de estado compactos para eficiência e suporte a frameworks como LangChain e LangGraph.

4. Resultados e Implementação

O artigo não apresenta resultados experimentais estatísticos (sendo um trabalho conceitual), mas detalha a viabilidade técnica:

Modos de Implantação:
- Prospectivo (Ideal): Intercepta a ação antes da execução. Permite prevenção de violações.
- Retrospectivo (Fallback): Analisa logs após a execução. Apenas detecta e alerta, não previne.
Eficiência: A maioria das políticas pode ser avaliada usando um vetor de estado compacto (ex: nível máximo de sensibilidade, contagem de passos, flags de aprovação) em vez de reanalisar todo o histórico, tornando a sobrecarga computacional aceitável.
Mapeamento com a Lei de IA da UE: O framework atende diretamente aos requisitos de:
- Gestão de riscos ao longo do ciclo de vida (Art. 9).
- Registro automático (Art. 12).
- Supervisão humana (Art. 14).
- Transparência e documentação (Art. 13/16).
- Robustez e cibersegurança (Art. 15).

5. Significado e Problemas Abertos

Significado:
O trabalho estabelece que a governança de agentes de IA não pode ser resolvida apenas no design time (pré-implantação). A natureza não determinística e dependente de contexto dos agentes exige uma camada de governança externa e em tempo real que avalie o caminho completo antes de permitir a próxima ação. Isso é essencial para conformidade regulatória e segurança corporativa.

Problemas Abertos e Desafios Futuros:

Calibração de Risco: Como transformar as saídas das políticas (0 a 1) em probabilidades reais de violação baseadas em dados operacionais?
Contorno Estratégico: A possibilidade de agentes aprenderem a manipular o sistema de governança para atingir objetivos proibidos mantendo pontuações baixas passo a passo.
Completude da Conformidade: Agentes com capacidade de execução de código podem contornar camadas de interceptação criando processos fora do ambiente governado.
Deriva Comportamental: Detecção de mudanças graduais no comportamento do agente ao longo do tempo que não são capturadas por políticas estáticas passo a passo.
Proveniência de Delegação: Como propagar o estado de governança e violações de sub-agentes para o agente principal em hierarquias complexas.
Interação de Políticas: O efeito cumulativo de adicionar muitas políticas pode bloquear ações legítimas inadvertidamente.

Em suma, o artigo fornece a base teórica e arquitetônica necessária para que organizações possam implantar agentes de IA de forma segura e conforme a regulamentação, movendo-se de uma governança baseada em "prompts" e "controle de acesso" para uma governança baseada em caminhos de execução e estado compartilhado.