An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Este artigo apresenta uma abordagem baseada em agentes de IA para desenvolver software crítico no domínio jurídico, utilizando um caso de estudo de preparação de impostos nos EUA onde um sistema multiagente automatiza a geração de testes metamórficos e a síntese de código, alcançando maior confiabilidade com modelos menores em comparação a modelos de ponta.

Sina Gogani-Khiabani, Ashutosh Trivedi, Diptikalyan Saha, Saeid Tizpaz-Niari

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa construir uma máquina extremamente complexa para calcular impostos. O manual de instruções dessa máquina não é um código de computador, mas sim milhares de páginas de leis escritas em linguagem humana, cheias de exceções, termos jurídicos e atualizações constantes. Se essa máquina errar, o governo pode cobrar impostos demais (roubando seu dinheiro) ou de menos (causando problemas legais).

Este artigo apresenta uma solução inovadora para esse problema: não confiar em um único "gênio" de Inteligência Artificial, mas sim criar uma equipe de especialistas (agentes) que trabalham juntos.

Aqui está a explicação do conceito, usando analogias do dia a dia:

1. O Problema: O "Tradutor" que Alucina

Antes, tentávamos pedir para uma única Inteligência Artificial (IA) ler a lei e escrever o código do programa.

  • A Analogia: É como pedir para um único estudante muito inteligente, mas inexperiente, traduzir um livro de direito inteiro para uma linguagem de programação em uma tarde.
  • O Erro: Essas IAs sozinhas tendem a "alucinar" (inventar coisas) ou interpretar mal a ambiguidade das leis. Elas podem criar um código que parece certo, mas que cobra impostos errados em situações específicas. Além disso, como ninguém sabe exatamente qual é o "resultado perfeito" para cada situação de imposto (o problema do "oráculo"), é difícil testar se o código está certo.

2. A Solução: A Equipe "Synedrion" (O Conselho)

Os autores criaram um sistema chamado Synedrion. Em vez de um único robô, eles montaram uma equipe de agentes de IA, cada um com um papel específico, como se fosse uma empresa de advocacia e engenharia trabalhando juntas.

  • O Especialista em Leis (TaxExpertAgent): Imagine um advogado sênior. Ele lê a lei bruta e a transforma em um "mapa" estruturado (um documento JSON). Ele não escreve o código, ele apenas organiza as regras de forma clara para que ninguém se confunda.
  • Os Programadores (Coder Agents): São os engenheiros que pegam o "mapa" do advogado e escrevem o código real. Eles têm um supervisor (Senior Coder) que revisa o trabalho deles antes de aceitar.
  • O Detetive de Erros (Metamorphic Agent): Esta é a grande inovação. Imagine um fiscal de trânsito ou um auditor. Ele não sabe qual é o valor exato do imposto de cada pessoa, mas ele sabe regras de consistência.
    • Exemplo: "Se a pessoa ganha mais, ela deve pagar mais imposto."
    • Exemplo Avançado (Teste de Alta Ordem): "Se a pessoa ganha um pouco mais e entra em uma faixa de imposto maior, o aumento no valor pago deve ser proporcional a essa nova faixa, não um valor fixo."

3. A Inovação Chave: O "Teste Metamórfico"

O artigo foca muito em como testar o software sem saber a resposta certa de antemão. Eles usam o conceito de Teste Metamórfico.

  • A Analogia da Balança: Imagine que você não sabe quanto pesa um saco de arroz (a resposta correta). Mas você sabe que se você adicionar outro saco igual, o peso deve dobrar.
  • No Imposto: O sistema não pergunta "Quanto é o imposto de João?". Ele pergunta: "Se João ganha R100amaiseentraemumafaixadeimpostomaisalta,oaumentonoimpostodeledevesermaiordoqueoaumentodeMaria,queganhouR 100 a mais e entra em uma faixa de imposto mais alta, o aumento no imposto dele deve ser maior do que o aumento de Maria, que ganhou R 100 a mais mas ficou na mesma faixa".
  • O Pulo do Gato (Ordem Superior): O sistema deles vai além. Ele não compara apenas duas pessoas. Ele compara várias pessoas ao mesmo tempo para ver se a tendência está correta. É como se o detetive olhasse para uma fila de 10 pessoas e dissesse: "A curva de crescimento dos impostos aqui está torta, algo está errado na lógica, mesmo que cada número individual pareça plausível".

4. O Resultado Surpreendente: O Pequeno é Melhor que o Grande

O resultado mais chocante do estudo é que modelos de IA menores e mais baratos (como o GPT-4o-mini), quando usados nessa equipe organizada, funcionaram melhor do que os modelos gigantes e caros (como o GPT-4o ou Claude-3.5) trabalhando sozinhos.

  • Por que? Porque o modelo pequeno, quando guiado pelo "Advogado" (que organiza as regras) e vigiado pelo "Detetive" (que encontra erros de lógica), não precisa ser um gênio em tudo. Ele só precisa seguir as instruções claras e corrigir os erros apontados.
  • A Lição: Ter um processo de trabalho bem estruturado (uma equipe) é mais importante do que ter apenas um "gênio" solitário.

Resumo Final

Este artigo diz que, para criar softwares críticos (como impostos, saúde ou leis), não devemos apenas jogar uma lei complexa em uma IA e esperar o melhor. Devemos criar um sistema de equipe:

  1. Um que entende a lei.
  2. Um que escreve o código.
  3. Um que testa a lógica comparando cenários semelhantes (para achar erros sutis).

Essa abordagem permite que até IAs menores e mais rápidas criem softwares seguros, confiáveis e livres de erros, transformando leis confusas em programas que funcionam de verdade. É como trocar um único tradutor sobrecarregado por uma equipe de revisão profissional que garante que nenhuma palavra seja mal interpretada.