An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

Each language version is independently generated for its own context, not a direct translation.

Imagine que você precisa construir uma máquina extremamente complexa para calcular impostos. O manual de instruções dessa máquina não é um código de computador, mas sim milhares de páginas de leis escritas em linguagem humana, cheias de exceções, termos jurídicos e atualizações constantes. Se essa máquina errar, o governo pode cobrar impostos demais (roubando seu dinheiro) ou de menos (causando problemas legais).

Este artigo apresenta uma solução inovadora para esse problema: não confiar em um único "gênio" de Inteligência Artificial, mas sim criar uma equipe de especialistas (agentes) que trabalham juntos.

Aqui está a explicação do conceito, usando analogias do dia a dia:

1. O Problema: O "Tradutor" que Alucina

Antes, tentávamos pedir para uma única Inteligência Artificial (IA) ler a lei e escrever o código do programa.

A Analogia: É como pedir para um único estudante muito inteligente, mas inexperiente, traduzir um livro de direito inteiro para uma linguagem de programação em uma tarde.
O Erro: Essas IAs sozinhas tendem a "alucinar" (inventar coisas) ou interpretar mal a ambiguidade das leis. Elas podem criar um código que parece certo, mas que cobra impostos errados em situações específicas. Além disso, como ninguém sabe exatamente qual é o "resultado perfeito" para cada situação de imposto (o problema do "oráculo"), é difícil testar se o código está certo.

2. A Solução: A Equipe "Synedrion" (O Conselho)

Os autores criaram um sistema chamado Synedrion. Em vez de um único robô, eles montaram uma equipe de agentes de IA, cada um com um papel específico, como se fosse uma empresa de advocacia e engenharia trabalhando juntas.

O Especialista em Leis (TaxExpertAgent): Imagine um advogado sênior. Ele lê a lei bruta e a transforma em um "mapa" estruturado (um documento JSON). Ele não escreve o código, ele apenas organiza as regras de forma clara para que ninguém se confunda.
Os Programadores (Coder Agents): São os engenheiros que pegam o "mapa" do advogado e escrevem o código real. Eles têm um supervisor (Senior Coder) que revisa o trabalho deles antes de aceitar.
O Detetive de Erros (Metamorphic Agent): Esta é a grande inovação. Imagine um fiscal de trânsito ou um auditor. Ele não sabe qual é o valor exato do imposto de cada pessoa, mas ele sabe regras de consistência.
- Exemplo: "Se a pessoa ganha mais, ela deve pagar mais imposto."
- Exemplo Avançado (Teste de Alta Ordem): "Se a pessoa ganha um pouco mais e entra em uma faixa de imposto maior, o aumento no valor pago deve ser proporcional a essa nova faixa, não um valor fixo."

3. A Inovação Chave: O "Teste Metamórfico"

O artigo foca muito em como testar o software sem saber a resposta certa de antemão. Eles usam o conceito de Teste Metamórfico.

A Analogia da Balança: Imagine que você não sabe quanto pesa um saco de arroz (a resposta correta). Mas você sabe que se você adicionar outro saco igual, o peso deve dobrar.
No Imposto: O sistema não pergunta "Quanto é o imposto de João?". Ele pergunta: "Se João ganha R $100 a mais e entra em uma faixa de imposto mais alta, o aumento no imposto dele deve ser maior do que o aumento de Maria, que ganhou R$ 100 a mais mas ficou na mesma faixa".
O Pulo do Gato (Ordem Superior): O sistema deles vai além. Ele não compara apenas duas pessoas. Ele compara várias pessoas ao mesmo tempo para ver se a tendência está correta. É como se o detetive olhasse para uma fila de 10 pessoas e dissesse: "A curva de crescimento dos impostos aqui está torta, algo está errado na lógica, mesmo que cada número individual pareça plausível".

4. O Resultado Surpreendente: O Pequeno é Melhor que o Grande

O resultado mais chocante do estudo é que modelos de IA menores e mais baratos (como o GPT-4o-mini), quando usados nessa equipe organizada, funcionaram melhor do que os modelos gigantes e caros (como o GPT-4o ou Claude-3.5) trabalhando sozinhos.

Por que? Porque o modelo pequeno, quando guiado pelo "Advogado" (que organiza as regras) e vigiado pelo "Detetive" (que encontra erros de lógica), não precisa ser um gênio em tudo. Ele só precisa seguir as instruções claras e corrigir os erros apontados.
A Lição: Ter um processo de trabalho bem estruturado (uma equipe) é mais importante do que ter apenas um "gênio" solitário.

Resumo Final

Este artigo diz que, para criar softwares críticos (como impostos, saúde ou leis), não devemos apenas jogar uma lei complexa em uma IA e esperar o melhor. Devemos criar um sistema de equipe:

Um que entende a lei.
Um que escreve o código.
Um que testa a lógica comparando cenários semelhantes (para achar erros sutis).

Essa abordagem permite que até IAs menores e mais rápidas criem softwares seguros, confiáveis e livres de erros, transformando leis confusas em programas que funcionam de verdade. É como trocar um único tradutor sobrecarregado por uma equipe de revisão profissional que garante que nenhuma palavra seja mal interpretada.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Uma Abordagem Agêntica com LLMs para Software Crítico Legal

1. O Problema

O desenvolvimento de software crítico para áreas legais (como finanças, saúde e conformidade) enfrenta desafios únicos ao tentar traduzir requisitos complexos de linguagem natural (leis e regulamentos) em código executável preciso. O caso de estudo utilizado é o software de preparação de impostos dos EUA, onde erros de implementação podem ter consequências financeiras e legais graves.

Os principais obstáculos identificados são:

Ambiguidade da Linguagem Natural: As leis fiscais são frequentemente vagas ou sujeitas a interpretações, dificultando a geração de código direto por modelos de linguagem (LLMs).
Problema do Oráculo (Oracle Problem): Em muitos cenários legais, não existe uma saída "correta" absoluta e imediata para validar o software, pois calcular a obrigação fiscal exata pode exigir interpretação jurídica complexa.
Alucinações e Inconsistências: LLMs tendem a alucinar regras ou aplicar lógica incorreta (ex: aplicar a alíquota máxima a toda a renda em vez de apenas à parcela excedente).
Limitações do Teste Metamórfico Convencional: Testes metamórficos tradicionais (comparação par-a-par) podem falhar em detectar erros sistemáticos, como a violação de estruturas de tributação progressiva (ex: um sistema que aplica uma taxa fixa plana pode ainda passar em testes que apenas verificam se "mais renda = mais imposto").

2. Metodologia: O Framework Synedrion

Os autores propõem o Synedrion, um framework multiagente baseado em LLMs que simula uma equipe de desenvolvimento de software real para traduzir documentos legais em código. A abordagem central é a colaboração entre agentes especializados e o uso de Testes Metamórficos de Alta Ordem (Higher-Order Metamorphic Testing - HMT).

Arquitetura dos Agentes:
O sistema é composto por cinco agentes especializados que trabalham em um fluxo iterativo:

TaxExpertAgent: Interpreta o texto legal, extrai regras e as converte em especificações estruturadas em JSON (definindo entradas, saídas, cálculos e casos de borda).
CoderAgent (x2): Gera o código Python inicial baseado nas especificações JSON.
SeniorCoderAgent: Atua como revisor, avaliando o código gerado pelos CoderAgents, fornecendo feedback e coordenando a geração de versões revisadas.
MetamorphicAgent: O componente inovador. Ele não apenas gera testes, mas infere relações metamórficas de alta ordem a partir das leis. Em vez de apenas comparar duas entradas, ele analisa taxas de mudança entre múltiplas entradas (n-árias) para detectar erros sistemáticos (ex: verificar se a taxa marginal de imposto aumenta corretamente ao cruzar faixas de renda).

Fluxo de Trabalho:
O processo é cíclico: o TaxExpertAgent define as regras $\rightarrow$ os CoderAgents geram o código $\rightarrow$ o MetamorphicAgent executa testes e identifica violações (contraexemplos) $\rightarrow$ o SeniorCoderAgent usa esses contraexemplos para refinar e corrigir o código.

3. Contribuições Principais

Generalização de Testes Metamórficos: Introdução de relações metamórficas de alta ordem (n-árias) que avaliam a consistência de taxas de mudança e estruturas progressivas, superando as limitações das comparações par-a-par tradicionais.
Paradigma Agêntico para Software Legal: Demonstração de que uma arquitetura multiagente, onde agentes simulam papéis específicos (especialista, codificador, revisor, testador), supera a abordagem de "prompting" direto (zero-shot ou Chain-of-Thought) para tarefas críticas.
Descoberta de Eficiência de Modelos Menores: A descoberta contraintuitiva de que modelos menores (como GPT-4o-mini), quando inseridos neste framework agêntico, podem superar modelos de ponta (Frontier models como GPT-4o e Claude-3.5) em tarefas complexas de geração de código fiscal.
Framework Synedrion: Uma implementação funcional e reprodutível que integra inferência de especificações, geração de código e validação baseada em leis.

4. Resultados Experimentais

Os autores avaliaram o framework em seis cenários de complexidade crescente, baseados em publicações do IRS (de cálculos básicos de faixas de imposto até distribuições de aposentadoria 1099-R).

Desempenho de Modelos Baseline (Sem Agentes):
- Modelos grandes (GPT-4o, Claude-3.5) performaram bem em cenários simples, mas sofreram drasticamente em cenários complexos (ex: Cenário 6), com taxas de aprovação (Pass@1) caindo para 23-39%.
- Modelos pequenos (Llama-8B, GPT-4o-mini) falharam quase completamente em cenários complexos sem o framework.
Desempenho com Synedrion (Abordagem Agêntica):
- Superação de Modelos Menores: O GPT-4o-mini, quando usado como base para os agentes, alcançou uma taxa de aprovação de 45% (worst-case) no cenário mais complexo, superando significativamente os modelos de ponta que usavam apenas prompting (que ficaram entre 9% e 15%).
- Melhoria com HMT: A integração do agente de testes metamórficos de alta ordem (HMT) elevou o desempenho do GPT-4o-mini para 69% (worst-case) e do GPT-4o para 88% no cenário mais difícil.
- Consistência: O framework agêntico reduziu drasticamente a variância de desempenho, garantindo que o código gerado fosse robusto mesmo em casos extremos.
Custo Computacional:
- A abordagem agêntica e os testes HMT aumentam significativamente o consumo de tokens (de ~18k para ~450k tokens no cenário mais complexo), indicando um trade-off entre precisão e custo computacional.

5. Significado e Impacto

Este trabalho é significativo por várias razões:

Solução para o Problema do Oráculo: Oferece uma metodologia viável para validar software crítico onde a saída correta é desconhecida, utilizando a consistência lógica das leis (stare decisis) como base para testes.
Viabilidade Econômica: Demonstra que é possível construir software de alta confiança usando modelos de linguagem menores e mais baratos, desde que eles sejam orquestrados em uma arquitetura agêntica robusta, em vez de depender exclusivamente de modelos gigantes e caros.
Aplicabilidade Geral: Embora focado em impostos, a metodologia é aplicável a outros domínios críticos legais, como sistemas de gestão de pobreza, regulamentações de saúde e conformidade financeira.
Confiabilidade: Estabelece um novo padrão para a geração de software a partir de especificações legais, priorizando a verificação sistemática e a detecção de erros estruturais antes da implantação.

Em suma, o artigo argumenta que a combinação de especialização de agentes, especificação estruturada e testes metamórficos avançados é o caminho mais promissor para transformar textos legais complexos em software executável, confiável e auditável.

An LLM Agentic Approach for Legal-Critical Software: A Case Study for Tax Prep Software

1. O Problema: O "Tradutor" que Alucina

2. A Solução: A Equipe "Synedrion" (O Conselho)

3. A Inovação Chave: O "Teste Metamórfico"

4. O Resultado Surpreendente: O Pequeno é Melhor que o Grande

Resumo Final

Resumo Técnico: Uma Abordagem Agêntica com LLMs para Software Crítico Legal

1. O Problema

2. Metodologia: O Framework Synedrion

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Multi-objective optimization determines when, which and how to fuse deep networks: an application to predict COVID-19 outcomes

A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical Applications

MARIA: a Multimodal Transformer Model for Incomplete Healthcare Data

Detecting LLM-Generated Peer Reviews

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs