Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive de lógica (um modelo de Inteligência Artificial) e você quer que ele responda a uma pergunta baseada em um conjunto de regras. A resposta pode ser apenas três coisas: Verdadeiro, Falso ou Desconhecido.

O problema é que, mesmo sendo inteligentes, esses detetives às vezes cometem dois erros bobos:

Inconsistência: Se você perguntar "O gato é preto?", ele diz "Verdadeiro". Mas se você perguntar "O gato não é preto?", ele, sem pensar, diz "Verdadeiro" também! Isso é impossível.
Medo de Errar (O "Desconhecido" Falso): Muitas vezes, o detetive sabe a resposta, mas está tão inseguro ou confuso com a forma como a pergunta foi feita que ele diz "Não sei" (Desconhecido), mesmo que a resposta estivesse bem na cara.

Os autores deste paper, Tianyi Huang e sua equipe, criaram uma solução inteligente chamada CGD-PD. Vamos explicar como funciona usando uma analogia do dia a dia.

A Analogia: O Juiz e o Advogado de Defesa

Imagine que o modelo de IA é um Juiz que precisa julgar um caso. O método CGD-PD é como adicionar um assistente de lógica ao lado do juiz.

Aqui está o passo a passo do que esse assistente faz:

1. A Regra do Espelho (Consistência)

Em vez de o Juiz julgar apenas a acusação ("O réu é culpado?"), o assistente obriga o Juiz a julgar também a defesa oposta ("O réu não é culpado?").

Se o Juiz diz "Culpado" para a acusação e "Inocente" para a defesa, tudo bem! O assistente confirma: "Ótimo, as respostas batem".
Se o Juiz diz "Culpado" para ambos, o assistente percebe o erro: "Ei, isso não faz sentido! Se ele é culpado, não pode ser inocente ao mesmo tempo". O assistente então corrige a resposta para que elas sejam lógicas.

2. O Detetive de "Não Sei" (Disambiguação)

Muitas vezes, o Juiz diz "Não sei" porque está com preguiça de pensar ou com medo de errar. O assistente não aceita isso de cara.

Ele pergunta: "Você realmente não sabe, ou só está com medo?".
Se houver uma prova clara no caso, o assistente força o Juiz a olhar para a prova e dar uma resposta definitiva (Verdadeiro ou Falso).
Só se realmente não houver prova nenhuma é que o assistente aceita o "Não sei".

3. A Prova Final (Sondagem Binária)

Se o Juiz continua dizendo "Não sei" para os dois lados, o assistente faz uma pergunta mais simples, de "Sim ou Não" (como um teste de verdade): "A prova X confirma a acusação?".

Isso é mais fácil para o cérebro da IA do que tentar decidir entre três opções complexas.
Com essa resposta simples, o assistente consegue forçar uma decisão lógica.

Por que isso é importante?

Os autores testaram isso em um banco de dados chamado FOLIO (que é como uma prova de lógica com regras muito estritas).

O Resultado: Ao usar esse "assistente de lógica", a precisão da IA aumentou significativamente (até 16% em alguns casos).
O Grande Ganho: A IA parou de dizer "Não sei" quando na verdade ela sabia a resposta. Ela se tornou mais ousada e precisa, mas sem perder a lógica.
O Custo: Para fazer isso, a IA precisa "pensar" um pouco mais (fazer de 4 a 5 perguntas em vez de 1). É como se você tivesse que consultar dois advogados em vez de um para ter certeza, mas vale a pena para evitar erros graves.

Resumo em uma frase

O CGD-PD é como um segurança de lógica que vigia a IA, garantindo que ela não se contradiga e que não diga "não sei" apenas por preguiça, forçando-a a usar a lógica básica para chegar à resposta certa.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O artigo aborda o desafio da Resposta a Questões Lógicas de Três Vias (3-way Logical QA). Neste cenário, dado um conjunto de premissas ( $S$ ) e uma hipótese ( $H$ ), o modelo deve classificar a relação lógica entre eles em uma de três categorias:

Verdadeiro (True): $S$ implica $H$ ( $S \models H$ ).
Falso (False): $S$ implica a negação de $H$ ( $S \models \neg H$ ).
Desconhecido (Unknown): $S$ não implica nem $H$ nem $\neg H$ (subespecificação lógica).

Os autores identificam duas falhas recorrentes em Modelos de Linguagem Grandes (LLMs) modernos ao realizar essa tarefa:

Inconsistência de Negação: O modelo trata $H$ e sua negação mecânica $\neg H$ como entradas independentes, violando a relação determinística onde, se $H$ é Verdadeiro, $\neg H$ deve ser Falso (e vice-versa).
Desconhecido Epistêmico: O modelo prevê "Unknown" não porque a lógica é realmente subespecificada, mas devido à incerteza, instabilidade ou comportamento conservador do modelo, mesmo quando as premissas suportam uma decisão clara. Isso reduz a precisão e a utilidade do sistema.

2. Metodologia: CGD-PD

Os autores propõem o CGD-PD (Consistency-Guided Decoding with Proof-Driven Disambiguation), uma camada leve de inferência (test-time wrapper) que não requer treinamento e funciona como uma "caixa preta" sobre o LLM. O método opera em três etapas principais:

A. Sondagem Dual Guiada por Consistência

O sistema consulta o mesmo classificador de 3 vias duas vezes:

Para a hipótese original $H$ .
Para uma forma mecanicamente negada $\neg H$ .
Se os resultados forem consistentes com a mapeamento de negação (ex: True/False) e pelo menos um lado for decisivo, o resultado é aceito.

B. Correção Direcionada de "Unknown"

Se um dos lados retorna "Unknown", o sistema não força uma decisão imediatamente. Em vez disso, invoca um prompt específico ("Unknown fixer") que solicita ao modelo:

Produzir uma decisão definitiva (True/False) com uma "prova" (citação de premissas) que a suporte, OU
Manter "Unknown" e explicar qual premissa faltaria para decidir.
Se um lado se torna decisivo após essa correção, o outro é definido automaticamente pelo mapeamento de negação.

C. Desambiguação Orientada a Provas (Binary Probes)

Se ambos os lados permanecem "Unknown" após a correção, o sistema utiliza provas de implicação binária (perguntas do tipo "Sim/Não"):

Verifica se $S \models H$ (Sim/Não).
Verifica se $S \models \neg H$ (Sim/Não).
Essas sondas binárias são menos propensas a usar "Unknown" indevidamente. A regra de decisão é simples:
(Sim, Não) $\rightarrow$ Verdadeiro.
(Não, Sim) $\rightarrow$ Falso.
Caso contrário (ambos Sim ou ambos Não) $\rightarrow$ Mantém-se "Unknown" (abstenção conservadora).

D. Adjudicação

Se o modelo retorna decisões definitivas mas inconsistentes (ex: True para $H$ e True para $\neg H$ ), um prompt leve de adjudicação escolhe a atribuição coerente.

Custo Computacional: O método é eficiente, exigindo em média 4 a 5 chamadas de modelo por exemplo (comparado a 1 chamada no baseline), sendo 2 chamadas no caso comum e até 6 no pior cenário.

3. Contribuições Principais

Identificação e Quantificação de Falhas: O trabalho isola e mede a "inconsistência de negação" e o "desconhecido epistêmico" usando as anotações formais do benchmark FOLIO.
Proposta do CGD-PD: Introduz um wrapper de inferência leve que impõe consistência lógica final e resolve seletivamente o "Unknown" através de sondas binárias direcionadas, sem necessidade de treinamento ou solvers externos.
Análise de Desempenho: Demonstra que as melhorias vêm principalmente da conversão de "Desconhecidos Epistêmicos" em respostas definitivas corretas, mantendo a precisão em casos genuinamente subespecificados.

4. Resultados Experimentais

Os experimentos foram realizados no benchmark FOLIO (focando nos campos de lógica de primeira ordem - FOL), utilizando dois modelos de ponta: GPT-5.2 e Claude Sonnet 4.5.

Melhoria de Precisão:
- GPT-5.2: Aumento de 4,4 pontos na precisão (de 63,7% para 68,1%).
- Claude Sonnet 4.5: Aumento de 6,9 pontos na precisão (de 42,2% para 49,0%).
Redução de "Unknown":
- O método reduziu significativamente a taxa de previsões "Unknown" (de 57,4% para 53,9% no GPT e de 75,5% para 58,8% no Claude).
- A taxa de "Desconhecido Epistêmico" (casos onde a resposta era True/False mas o modelo disse Unknown) caiu drasticamente.
Cobertura: O CGD-PD aumentou a cobertura (porcentagem de respostas não-Unknown) sem sacrificar a precisão nas respostas dadas, indicando que muitos "Unknowns" originais eram erros de abstenção, não limitações lógicas.

5. Significado e Impacto

O trabalho demonstra que enforçar estruturas lógicas mínimas no tempo de inferência é uma estratégia prática e eficaz para melhorar o raciocínio de LLMs.

Eficiência vs. Complexidade: Diferente de métodos pesados como Chain-of-Thought extenso ou solvers simbólicos completos, o CGD-PD oferece ganhos significativos com um custo computacional moderado (poucas chamadas extras).
Robustez: O método mitiga a fragilidade dos LLMs em relação a transformações de entrada (como negação), garantindo que a saída seja logicamente coerente.
Aplicabilidade: É particularmente útil em cenários de alta responsabilidade (como ferramentas educacionais ou de verificação) onde a abstenção excessiva ("Unknown") reduz a utilidade do sistema, mas onde a consistência lógica é crítica.

Em resumo, o CGD-PD transforma a redundância lógica inerente à relação entre $H$ e $\neg H$ em uma ferramenta de correção de erros, melhorando a confiabilidade e a precisão de modelos de linguagem em tarefas de raciocínio lógico formal.