Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro autônomo muito inteligente para entregar pacotes em uma cidade movimentada (o mundo dos serviços financeiros). De repente, a polícia (o regulador) para você e pergunta: "Por que você parou aqui? Mostre-me o registro exato do que você viu e pensou, e repita a ação agora mesmo para provar que não foi um erro."

É aqui que a maioria dos carros autônomos (os agentes de IA) falha. Se você pedir para eles repetirem a mesma viagem com as mesmas condições, eles podem tomar uma decisão diferente, ou explicar o motivo de uma forma totalmente nova. Isso é um pesadelo para bancos e reguladores, que precisam de certeza absoluta.

Este artigo apresenta uma solução chamada DFAH (uma "ferramenta de garantia de fidelidade e determinismo"). Vamos descomplicar o que eles descobriram usando analogias do dia a dia:

1. O Problema: O "Capricho" da IA

Os autores descobriram que os modelos de IA têm dois comportamentos opostos, como dois tipos de cozinheiros:

O Cozinheiro Robótico (Modelos Pequenos - 7B a 20B):
Imagine um robô que segue receitas à risca. Se você pedir "bolo de chocolate", ele faz exatamente o mesmo bolo, com os mesmos ingredientes e o mesmo formato, 100% das vezes.
- Vantagem: É super previsível. Se o regulador pedir para repetir, ele faz igualzinho.
- Desvantagem: Ele não entende o contexto. Se o bolo precisa ser sem açúcar, ele pode continuar colocando açúcar porque a receita diz "açúcar". Ele é determinista (repete tudo), mas inexato (pode errar a tarefa).
O Cozinheiro Artista (Modelos Grandes/Frontier - Claude, Gemini):
Imagine um chef de cozinha genial. Ele entende que "bolo de chocolate" pode ser feito de 50 formas diferentes. Ele decide usar um método hoje e outro amanhã, mas o resultado final (o bolo) é delicioso.
- Vantagem: Ele acerta a tarefa com mais frequência (é mais inteligente).
- Desvantagem: Se você pedir para ele repetir a receita exatamente igual, ele pode mudar o modo de bater os ovos ou a ordem dos ingredientes. Ele é preciso, mas imprevisível.

2. A Grande Descoberta: "Não existe bala de prata"

O estudo fez mais de 4.700 testes e descobriu algo surpreendente: Inteligência e Previsibilidade não andam juntas.

Eles mediram a "acurácia" (se o bolo ficou bom) e a "determinismo" (se o bolo foi feito igualzinho toda vez).
Resultado: Não há nenhuma correlação. Um modelo pode ser um gênio e imprevisível, ou um robô chato e previsível.
Conclusão: Você não pode confiar apenas em um número para dizer se a IA é boa. Você precisa medir os dois separadamente. É como tentar comprar um carro olhando apenas se ele é rápido, sem olhar se ele tem freios.

3. A Solução: A "Caixa Preta" de Auditoria (DFAH)

Os autores criaram uma ferramenta (o DFAH) que funciona como uma caixa preta de avião para essas IAs. Ela grava tudo:

O Caminho (Trajetória): Quais ferramentas a IA usou? (Ex: "Primeiro olhou o saldo, depois olhou o clima, depois decidiu").
A Decisão: Qual foi o resultado final? (Ex: "Comprar" ou "Vender").
A Evidência: A decisão foi baseada em fatos reais ou a IA inventou coisas?

A ferramenta verifica: "Se rodarmos isso 10 vezes, chegamos ao mesmo lugar? E o caminho foi o mesmo?"

4. O Que Isso Significa para o Banco?

O artigo dá conselhos práticos baseados no tamanho do modelo (o "cérebro" da IA):

Para Tarefas de Segurança (Ex: Detectar Lavagem de Dinheiro):
Use os modelos pequenos (Tier 1). Eles são como robôs de segurança. Eles podem não ser os mais criativos, mas se você pedir para eles repetirem a decisão de bloquear uma conta, eles farão exatamente a mesma coisa. Isso é o que os reguladores exigem: reprodutibilidade. É melhor errar de forma consistente do que acertar de forma aleatória.
Para Tarefas de Conselheiro (Ex: Sugerir Investimentos):
Use os modelos grandes (Frontier). Eles são mais inteligentes e dão melhores conselhos. Mas, como eles mudam de ideia ou de método, você precisa de um humano no comando para revisar tudo antes de executar. Não deixe eles agirem sozinhos em sistemas críticos.

Resumo em uma frase:

Neste mundo financeiro, ser previsível é tão importante quanto ser inteligente. A ferramenta criada por eles ajuda os bancos a escolherem o "robô" certo para o trabalho certo, garantindo que, quando o regulador bater à porta, a IA possa repetir sua história exatamente como aconteceu, sem inventar nada.

Onde encontrar os dados:
Os autores disponibilizaram todo o código e os dados no GitHub (IBM), para que qualquer banco possa testar suas próprias IAs antes de colocá-las no mercado.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Replayable Financial Agents

1. O Problema

A adoção de agentes de LLM (Large Language Models) para tomada de decisões financeiras (como triagem de conformidade, reequilíbrio de portfólio e relatórios regulatórios) enfrenta um obstáculo crítico: a falta de reprodutibilidade em auditorias regulatórias.

Desafio de Replay: Quando reguladores exigem que um sistema reproduza uma decisão específica com as mesmas entradas, a maioria das implantações falha em retornar resultados consistentes.
Complexidade Agêntica: Diferente de tarefas de geração de texto simples, agentes usam ferramentas (tool-use) em múltiplos passos. Mesmo que a decisão final seja a mesma, a trajetória (sequência de chamadas de ferramentas) pode variar, criando "drift" (desvio) que compromete a auditabilidade.
Falta de Métricas: Não há consenso sobre como medir simultaneamente a determinismo (capacidade de reproduzir o mesmo resultado) e a fidelidade (capacidade de basear decisões em evidências recuperadas e não em raciocínio fabricado). Métricas existentes muitas vezes confundem precisão com consistência.

2. Metodologia: O DFAH

Os autores introduzem o Determinism-Faithfulness Assurance Harness (DFAH), um framework de avaliação projetado para agentes que utilizam ferramentas em serviços financeiros.

Definições Formais:
- Determinismo de Trajetória: Medido por Action Determinism (sequência de ferramentas idêntica) e Signature Determinism (sequência + argumentos idênticos).
- Determinismo de Decisão: A fração de execuções que resultam na mesma decisão final.
- Fidelidade Condicionada à Evidência: Mede se as justificativas da decisão estão alinhadas com as evidências recuperadas (usando heurísticas de sobreposição léxica e semântica, evitando juízes de LLM que introduziriam não-determinismo).
Métrica de Conformidade (Passk vs. Pass@k): O framework adota a métrica Passk (probabilidade de todas as $k$ tentativas terem sucesso), em vez de Pass@k (pelo menos uma tentativa de sucesso). Para conformidade regulatória, cada decisão deve ser reproduzível, não apenas "algumas".
Configuração Experimental:
- Dados: 4.700+ execuções de agentes.
- Modelos: 7 modelos de 4 provedores (incluindo Qwen, Granite, Llama, Claude Opus/Sonnet, Gemini 2.0/2.5).
- Benchmarks: 3 tarefas financeiras com 50 casos cada (Triagem de Conformidade, Restrições de Portfólio, Exceções de DataOps).
- Condições: Temperatura $T=0.0$ para isolar a variabilidade do modelo.
- Cenários de Estresse: Injeção de falhas de dados, mudanças temporais e simulações de choque de mercado.

3. Principais Contribuições

Framework DFAH: Definições formais e implementação de código aberto para medir determinismo de trajetória, decisão e fidelidade em agentes.
Descoberta Empírica Fundamental: A correlação entre determinismo e precisão da tarefa é inexistente ( $r = -0.11$ , $p = 0.63$ ). Modelos podem ser determinísticos sem serem precisos, e precisos sem serem determinísticos. Isso invalida o uso de uma única métrica para avaliação.
Caracterização de Trade-off:
- Modelos Pequenos (7–20B): Alcançam determinismo quase perfeito (94–100%) através de "pattern matching" rígido (padrões de resposta fixos), mas com baixa precisão (20–42%).
- Modelos Frontier (Claude, Gemini): Mostram precisão variável e moderada a alta, mas com determinismo significativamente menor (50–96%), explorando caminhos de ferramentas diversos para chegar a conclusões.
Padrão "Mesma Conclusão, Diferente Raciocínio": Modelos frontier frequentemente convergem para a mesma decisão final, mas utilizam sequências de ferramentas drasticamente diferentes entre execuções, falhando em auditorias de replay de trajetória.

4. Resultados Chave

Ausência de Correlação: Nenhum modelo alcançou simultaneamente determinismo perfeito e alta precisão. A precisão não é um preditor de determinismo.
Desempenho por Tier:
- Tier 1 (7–20B, inferência local): Qwen 2.5-7B e Granite 3-8B atingiram 100% de determinismo de decisão, mas com precisão baixa (ex: 38% em triagem de conformidade), muitas vezes escolhendo a ação "investigar" ou "modificar" como padrão.
- Modelos Frontier: Claude Opus 4.5 atingiu a maior precisão (68,7% em triagem), mas com apenas 72% de determinismo de decisão e 44% de determinismo de assinatura (sequência de ferramentas).
Impacto da Arquitetura: Arquiteturas "Schema-First" (saída estruturada via JSON) melhoraram o determinismo sem sacrificar drasticamente o desempenho em tarefas estruturadas.
Cenários de Estresse: Modelos Tier 1 mantiveram alta estabilidade sob injeção de falhas de dados e reinicialização de containers, enquanto modelos maiores mostraram maior degradação.

5. Significado e Implicações Práticas

Requisito Regulatório: Em ambientes financeiros regulados, a reprodutibilidade (determinismo) é um pré-requisito para a validação de precisão. Um modelo com 80% de precisão e 50% de determinismo é inaudível, pois sua precisão observada pode ser apenas variância de amostragem.
Guia de Implantação:
- Tarefas Críticas de Conformidade (AML, Relatórios): Recomenda-se Tier 1 (7–20B) com arquitetura Schema-First. A baixa precisão é aceitável se o sistema for auditável e determinístico, permitindo que humanos validem as exceções.
- Tarefas de Consultoria/Análise: Modelos Frontier podem ser usados, mas exigem supervisão humana (Human-in-the-Loop) para garantir consistência, já que não atendem a requisitos de replay autônomo.
Mudança de Paradigma: O estudo sugere que a indústria deve abandonar a busca por "o modelo mais inteligente" em favor de "o modelo mais auditável" para fluxos de trabalho regulados. A precisão deve ser otimizada apenas após a garantia de determinismo.

Conclusão: O DFAH fornece a infraestrutura necessária para validar agentes de IA em finanças, demonstrando que a precisão e a reprodutibilidade são dimensões independentes que devem ser medidas e gerenciadas separadamente. A adoção de modelos menores e otimizados para tarefas, combinados com restrições de esquema, oferece o melhor equilíbrio para conformidade regulatória atual.

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

1. O Problema: O "Capricho" da IA

2. A Grande Descoberta: "Não existe bala de prata"

3. A Solução: A "Caixa Preta" de Auditoria (DFAH)

4. O Que Isso Significa para o Banco?

Resumo em uma frase:

Resumo Técnico: Replayable Financial Agents

1. O Problema

2. Metodologia: O DFAH

3. Principais Contribuições

4. Resultados Chave

5. Significado e Implicações Práticas

Mais como este

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance