Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está pedindo para um assistente de IA (um "cérebro digital") resolver um problema difícil, como corrigir uma prova de química ou verificar se uma notícia é falsa.

Para garantir que a IA não está apenas "chutando" a resposta, os pesquisadores pedem que ela primeiro escreva um rascunho de raciocínio (uma lista de verificação, um esboço ou uma "ficha de notas") antes de dar a nota final. A ideia é: "Se a IA segue o rascunho, então o raciocínio dela é honesto e transparente."

Mas a pergunta que este artigo faz é: A IA realmente usa esse rascunho para decidir a nota, ou ela apenas escreve o rascunho para parecer educada e já sabe a resposta de cor?

Os autores chamam isso de "Quebrando a Corrente". Eles querem saber se o rascunho é a causa da resposta ou apenas um acompanhante.

O Experimento: A "Troca de Cartas"

Para descobrir a verdade, os pesquisadores criaram um teste muito inteligente, como se fossem detetives:

O Cenário: Eles dão um problema para a IA. A IA escreve seu rascunho (ex: "O aluno acertou 3 de 5 pontos") e dá a nota final (ex: "3 pontos").
A Intervenção (O Truque): Os pesquisadores pegam esse rascunho e mudam uma linha manualmente. Eles dizem: "Ei, IA, olhe de novo. No seu rascunho, mudamos o item 2 de 'Verdadeiro' para 'Falso'. Agora, qual é a nota?"
O Teste:
- Se a IA for fiel, ela deve recalcular a nota imediatamente para 2 pontos, porque o rascunho mudou.
- Se a IA for desleal, ela vai ignorar a mudança no rascunho e continuar dizendo "3 pontos", porque ela já decidiu a resposta baseada no problema original, não no rascunho.

O Que Eles Descobriram?

Os resultados foram surpreendentes e um pouco preocupantes:

A "Falsa Honestidade": Na maioria das vezes, a IA parecia estar seguindo o rascunho. Mas, quando os pesquisadores mudavam o rascunho, a IA mudava de ideia em até 60% dos casos. Ela continuava dando a mesma resposta antiga, ignorando o novo rascunho.
- Analogia: É como um juiz que escreve uma sentença detalhada, mas quando você rasura uma linha do documento, ele continua lendo a sentença antiga de cabeça, sem olhar para o papel.
O Viés da "Quebra": A IA é mais fácil de "quebrar" do que de "consertar". Se você mudar o rascunho para algo errado (contrafactual), a IA tende a mudar a resposta. Mas se você tentar corrigir um erro no rascunho, ela muitas vezes se recusa a mudar a resposta final.

A Solução Mágica: O "Calculador Externo"

Os pesquisadores testaram uma solução: e se a IA não fizesse a conta final?
Eles fizeram a IA escrever o rascunho, mas delegaram a conta final para uma calculadora externa (uma ferramenta).

O Resultado: Quando a IA não precisava "fazer as contas" sozinha, ela se tornou extremamente fiel. Ela passou a seguir o rascunho quase 100% das vezes.
Por que? Porque a IA muitas vezes falha não por ser desonesta, mas porque é péssima em fazer contas complexas no meio do texto. Ela se distrai. Quando você tira essa tarefa difícil de cima dela e deixa uma ferramenta fazer a conta, ela foca apenas em seguir o rascunho.

Conclusão Simples

Este estudo nos ensina uma lição importante sobre Inteligência Artificial:

Não confie apenas no "pensamento em voz alta": O fato de a IA escrever um raciocínio detalhado não significa que ela está realmente usando esse raciocínio para tomar a decisão. Muitas vezes, é apenas um "teatro".
A estrutura é um contexto, não uma regra: Para as IAs atuais, o rascunho é como um "sinalizador" que influencia a resposta, mas não é uma "corrente" que prende a resposta.
Ferramentas são o caminho: Se queremos IAs verdadeiramente confiáveis e transparentes, não basta pedir para elas "pensarem mais". Precisamos dar a elas ferramentas externas para fazerem os cálculos finais, para que elas não se percam no processo.

Em resumo: A IA muitas vezes finge que segue as regras que ela mesma escreveu. Para que ela seja verdadeiramente honesta, precisamos tirar a parte difícil da matemática de suas mãos e deixar que ela apenas siga o roteiro.

Each language version is independently generated for its own context, not a direct translation.

Título: Quebrando a Cadeia: Uma Análise Causal da Fidelidade de LLMs a Estruturas Intermediárias

1. Problema Investigado

O artigo aborda uma lacuna crítica na avaliação de modelos de linguagem grandes (LLMs): a fidelidade (faithfulness) de seus processos de raciocínio.

Contexto: Pipelines de raciocínio guiado por esquema (Schema-Guided Reasoning - SGR) instruem LLMs a gerar estruturas intermediárias explícitas (como rubricas, listas de verificação ou consultas estruturadas) antes de tomar uma decisão final. A premissa é que essas estruturas explicam e causam a decisão final.
A Questão Central: Essas estruturas intermediárias realmente causam a decisão do modelo, ou elas apenas a acompanham (são "post-hoc" ou justificativas ilusórias)?
O Desafio: Métodos anteriores de avaliação de fidelidade (como perturbação de Chain-of-Thought livre) são difíceis de isolar causalmente devido à natureza não estruturada e redundante do texto gerado. É necessário um ambiente controlado onde a relação entre a estrutura intermediária e a decisão final seja determinística.

2. Metodologia e Protocolo de Avaliação

Os autores propõem um protocolo de avaliação causal baseado no princípio da "porta frontal" (front-door criterion) de Pearl, tratando a estrutura intermediária ( $M$ ) como um mediador entre a entrada ( $X$ ) e a decisão final ( $Y$ ).

2.1. Configuração Experimental

Tarefas: Foram utilizados três benchmarks onde a decisão final é uma função determinística da estrutura intermediária:
1. RiceChem: Classificação de respostas de química baseada em uma rubrica de itens Verdadeiro/Falso.
2. AVeriTeC: Verificação de fatos baseada em respostas binárias a sub-perguntas.
3. TabFact: Verificação de fatos em tabelas baseada em consultas estruturadas (DSL/SQL).
Modelos: 8 modelos instruídos de diferentes famílias e tamanhos (Qwen 3, Falcon 3, LLaMA 3, Gemma 2), variando de 1.7B a 8B parâmetros.
Métrica de Fidelidade:
- $F_{ID}$ (Fidelidade In-Distribution): O modelo é consistente com sua própria estrutura gerada? ( $\hat{y} = C(\hat{m})$ )
- $F_{Strong}$ (Fidelidade Forte): O modelo atualiza sua decisão quando a estrutura intermediária é intervencionada externamente? ( $\hat{y}^* = C(m^*)$ )
- $\Delta = F_{ID} - F_{Strong}$ : A lacuna que mede a fragilidade da fidelidade. Um $\Delta$ alto indica que o modelo ignora a estrutura quando ela é alterada.

2.2. Protocolo de Intervenção

O estudo aplica dois tipos de intervenção controlada na estrutura intermediária $M$ :

Cenário de Correção (COR): Quando o modelo gera uma estrutura incorreta, ela é substituída pela versão correta (Gold Mediator). Um modelo fiel deve mudar sua decisão para corresponder à nova estrutura.
Cenário Contrafactual (CNF): Quando o modelo gera uma estrutura correta, ela é perturbada intencionalmente (ex: mudar um item de True para False). Um modelo fiel deve mudar sua decisão para refletir essa alteração.

2.3. Estudos de Caso Adicionais

Externalização de Ferramentas (Tools): Para separar a "falta de fidelidade" da "dificuldade computacional" (o modelo não consegue calcular a soma da rubrica no contexto), a função determinística $C$ foi externalizada como uma ferramenta. O modelo apenas gera o argumento para a ferramenta, que executa o cálculo.
Força das Instruções: Testou-se se prompts mais fortes (dizendo explicitamente para priorizar a estrutura intermediária sobre a entrada original) aumentam a fidelidade.

3. Principais Contribuições

Formulação Causal: Definiram a fidelidade a representações intermediárias estruturadas como um problema de mediação causal, introduzindo um protocolo com alvos contrafactuais determinísticos.
Protocolo de Intervenção Controlada: Desenvolveram um método sistemático para testar se as etapas de raciocínio são mediadores operativos ou apenas contexto influente.
Descoberta de Assimetria: Revelaram que a sensibilidade dos modelos é assimétrica: modelos são mais fáceis de "quebrar" (alterar a decisão) com intervenções contrafactuais do que de "corrigir" (alinhá-los à verdade).
Análise de Mecanismos: Demonstraram que a falta de fidelidade é principalmente computacional (dificuldade de executar a lógica no contexto) e não apenas uma questão de instrução ou confiança no mediador.

4. Resultados Chave

4.1. A Lacuna de Fidelidade (Fragilidade)

Existe uma desconexão consistente entre consistência interna e fidelidade causal. Os modelos parecem consistentes com suas próprias estruturas ( $F_{ID}$ alto), mas falham em atualizar suas previsões quando a estrutura é alterada externamente.
Dados: Em até 60% dos casos (especialmente no AVeriTeC), os modelos não atualizam a decisão após a intervenção, mesmo que a estrutura intermediária tenha mudado.
Conclusão: As estruturas intermediárias funcionam como contexto influente, não como mediadores causais estáveis. O modelo muitas vezes "pula" a estrutura ( $X \to Y$ direta) e usa atalhos latentes ou conhecimento prévio.

4.2. Assimetria Direcional

Os modelos respondem de forma diferente dependendo do tipo de intervenção:
- São mais sensíveis a intervenções contrafactuais (mudar uma estrutura correta para errada) do que a correções (mudar uma estrutura errada para correta).
- Isso sugere que os modelos são mais propensos a ser desviados do que a serem corrigidos, indicando que o mecanismo de raciocínio não é único ou estável.

4.3. Impacto da Externalização de Ferramentas

Quando a etapa determinística (cálculo da nota ou veredito) é delegada a uma ferramenta externa:
- A lacuna de fidelidade ( $\Delta$ ) desaparece quase completamente (reduzindo para < 0.03 na maioria dos casos).
- Implicação: Grande parte da "infidelidade" observada no modo padrão deve-se à dificuldade do modelo em executar a lógica determinística no contexto (ex: somar muitos itens), e não a uma recusa em seguir a estrutura.

4.4. Impacto das Instruções (Prompts)

Aumentar a força das instruções (dizer ao modelo para priorizar a estrutura intermediária) teve impacto mínimo na fidelidade.
Em alguns casos, instruções mais fortes até pioraram o desempenho ou não trouxeram melhorias significativas, sugerindo que o problema não é ambiguidade de instrução, mas sim a incapacidade de usar a estrutura como mecanismo causal primário.

5. Significado e Conclusão

O estudo conclui que, nas pipelines atuais de raciocínio guiado por esquema, as estruturas intermediárias não são mediadores causais confiáveis.

Ilusão de Explicabilidade: O fato de um modelo gerar uma lista de verificação coerente não garante que a decisão final foi derivada dela.
Fragilidade: A aparente fidelidade é frágil e se quebra sob intervenção.
Solução Prática: Para garantir que o raciocínio estruturado influencie a decisão, é necessário externalizar a etapa de decisão (usar ferramentas para calcular o resultado final com base na estrutura), em vez de confiar no modelo para fazer o raciocínio e o cálculo simultaneamente no contexto.
Direção Futura: A pesquisa sugere que a "fidelidade" em LLMs atuais é mais uma questão de capacidade de execução de tarefas (tool use) do que de alinhamento causal interno.

Este trabalho oferece um novo padrão ouro para avaliar a transparência de LLMs, mostrando que a simples geração de passos intermediários não é suficiente para garantir raciocínio confiável em domínios de alto risco.