Arbiter: Detecting Interference in LLM Agent System Prompts

O artigo apresenta o Arbiter, um framework que combina regras de avaliação formal e varredura com múltiplos modelos de linguagem para detectar padrões de interferência em prompts de sistema de agentes de codificação, revelando vulnerabilidades críticas em ferramentas de grandes empresas e demonstrando que a arquitetura do prompt influencia o tipo de falha, mas não sua gravidade.

Tony Mason

Publicado Wed, 11 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os "agentes de IA" (como o Claude Code, o Codex e o Gemini) são como estagiários superinteligentes que você contrata para escrever código para você. Eles são incríveis, mas têm um problema: eles seguem cegamente um "manual de instruções" chamado Prompt de Sistema.

Este manual é o que diz ao estagiário o que fazer, o que não fazer e como se comportar. O problema é que, até agora, ninguém verificava se esse manual fazia sentido. Era como entregar um livro de regras para um piloto de avião onde, na página 10, diz "suba", e na página 50, diz "nunca suba", mas sem ninguém ter lido para ver a contradição. O piloto (a IA) apenas "adivinha" qual regra seguir e segue em frente, silenciosamente.

O artigo "Arbiter" (o Árbitro) é como um detetive de falhas que criou uma nova maneira de ler esses manuais antes que eles causem acidentes.

Aqui está a explicação simples do que eles descobriram:

1. O Problema: Manuais Caóticos

Os autores compararam esses prompts a softwares reais. Se você escreve um código de computador, usa ferramentas para achar erros. Com os prompts de IA, não existe isso.

  • A Analogia: Imagine que o prompt é a Constituição do agente. Mas é uma constituição escrita à mão, com rasuras, onde uma seção diz "coma maçãs" e outra diz "nunca coma frutas". A IA não grita "Erro!"; ela apenas decide qual regra seguir naquele momento, o que pode levar a comportamentos estranhos ou perigosos.

2. A Solução: O Detetive "Arbiter"

Os pesquisadores criaram uma ferramenta chamada Arbiter que usa duas estratégias para encontrar esses erros:

  • Estratégia 1: O Detetive Rigoroso (Análise Direta)
    Eles quebraram o manual em pedaços e usaram regras estritas para procurar contradições óbvias.

    • Exemplo: "Se a regra A diz 'sempre use X' e a regra B diz 'nunca use X', temos um erro."
    • Eles encontraram 21 erros claros no manual do Claude Code, como instruções conflitantes sobre como salvar tarefas.
  • Estratégia 2: O Explorador Curioso (Varredura com Múltiplos Modelos)
    Aqui está a parte genial. Eles pegaram o manual e pediram para vários modelos de IA diferentes (não apenas um) que o lessem e dissessem: "O que você achou de estranho aqui?".

    • A Analogia: É como pedir para 10 detetives diferentes lerem o mesmo caso. Um é especialista em finanças, outro em segurança, outro em psicologia.
    • Eles não queriam que todos concordassem. Eles queriam que cada um trouxesse uma perspectiva única. Um modelo pode notar que o manual gasta dinheiro demais, enquanto outro nota que o manual esquece de salvar a memória do usuário.

3. O Que Eles Encontraram? (Os 3 Tipos de Arquitetura)

Eles analisaram os manuais de três grandes empresas (Anthropic, OpenAI e Google) e descobriram que o formato do manual determina o tipo de erro:

  1. O "Monolito" (Claude Code): Um livro gigante e único de quase 1.500 linhas.

    • O Erro: Como é um livro gigante feito por várias pessoas em momentos diferentes, as regras das "capítulos" não conversam entre si. É como uma casa onde o encanador instalou canos que vazam na parede que o eletricista pintou.
    • Resultado: Contradições graves entre tarefas gerais e tarefas específicas.
  2. O "Plano" (Codex CLI): Um manual curto e simples.

    • O Erro: É tão simples que não tem muitos erros, mas também não faz muita coisa. É como um carro básico: não quebra, mas não tem ar-condicionado nem rádio.
  3. O "Modular" (Gemini CLI): Um manual feito de blocos montados na hora.

    • O Erro: Cada bloco funciona perfeitamente sozinho, mas quando você os junta, eles não se encaixam.
    • A Descoberta Chocante: Eles encontraram um erro onde o sistema de "memória" do agente (onde ele guarda suas preferências) era apagado automaticamente quando o histórico de conversa ficava longo. Era como se você escrevesse um bilhete para si mesmo, e a cada 10 páginas, o livro se fechasse e rasgasse a página onde você escreveu. O Google corrigiu o "sintoma" (o travamento), mas não corrigiu a "causa" (o desenho do livro que rasga a página).

4. O Grande Segredo: Por que usar várias IAs?

Se você usar apenas uma IA para ler o manual, ela vai ver apenas o que ela foi treinada para ver.

  • A Analogia: Se você tem um problema de saúde e vai ao médico, ele pode focar no coração. Se você vai a um nutricionista, ele foca na dieta. Você precisa de ambos para ter a imagem completa.
  • O estudo mostrou que modelos diferentes encontram tipos de erros completamente diferentes. Um modelo encontrou falhas de segurança, outro encontrou falhas de economia (gasto de tokens), outro encontrou falhas de lógica. Eles se complementam.

5. O Custo: Quase Grátis

A parte mais impressionante é o preço. Analisar esses três manuais gigantes, usando dezenas de modelos de IA diferentes, custou US$ 0,27 (vinte e sete centavos de dólar).

  • Isso é menos do que o custo de 3 minutos do salário mínimo nos EUA.
  • A mensagem final é: Nós temos a tecnologia para verificar se esses "constituições" de IA estão seguras, e é baratíssimo fazer isso. Mas ninguém está fazendo.

Resumo Final

O artigo diz que os manuais que controlam nossas IAs são como softwares mal escritos, cheios de contradições que ninguém verifica. O "Arbiter" é uma nova ferramenta que usa uma equipe de "detetives de IA" diferentes para encontrar esses erros. Eles descobriram que o jeito como esses manuais são escritos (se são longos, curtos ou feitos de blocos) define que tipo de erro vai acontecer. E o melhor: podemos consertar isso gastando menos de um real.