Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA super inteligente, capaz de escrever poemas, resolver problemas e contar histórias. Mas, como todo ser humano que já inventou uma desculpa esfarrapada, esse assistente às vezes "alucina": ele inventa fatos, cita fontes que não existem ou responde com confiança total a perguntas sobre as quais não tem nenhuma informação.

Este artigo propõe uma solução inteligente para esse problema, tratando a alucinação não como um erro de "falar errado", mas como um erro de quando falar.

Aqui está a explicação do conceito, usando analogias do dia a dia:

1. O Problema: O "Ponto de Não-Retorno"

Imagine que a IA é um chef de cozinha muito talentoso.

O Erro: Às vezes, o chef não tem os ingredientes reais (evidências) para fazer o prato que o cliente pediu. Em vez de dizer "não posso fazer isso", ele pega ingredientes que parecem semelhantes da geladeira, mistura tudo e serve o prato com um sorriso confiante. O cliente come e fica doente (a IA alucinou).
A Visão do Artigo: O problema não é que o chef inventou o prato, mas que ele não parou antes de servir. Ele cruzou a linha de saída da cozinha sem ter certeza de que o prato era seguro. O artigo chama isso de "erro de classificação na fronteira de saída".

2. A Solução: Um Sistema de Dupla Segurança

Os autores criaram um sistema com dois "guardiões" que trabalham juntos para impedir que o prato errado saia da cozinha. Eles chamam isso de Arquitetura de Abstenção Composta.

O Primeiro Guardião: O "Chef Consciente" (Instrução)

Este é o próprio modelo de IA, mas com um lembrete especial: "Se você não tiver certeza absoluta, não responda. É melhor ficar em silêncio do que inventar."

Como funciona: É como pedir ao chef para checar sua própria memória antes de cozinhar.
O Problema: Às vezes, o chef é tão confiante que acha que sabe a resposta, mesmo quando não sabe. Ou, em modelos mais simples, ele ignora o lembrete e continua inventando. Outras vezes, ele fica tão cauteloso que se recusa a cozinhar pratos fáceis que ele realmente saberia fazer (abstenção excessiva).

O Segundo Guardião: O "Inspeção Técnica" (Portão Estrutural)

Este é um sistema externo, como um inspetor de qualidade que não confia na memória do chef, mas olha para os fatos. Ele usa três sinais para calcular uma "Nota de Falta de Suporte":

Consistência: Se pedirmos para o chef fazer o prato 3 vezes de formas levemente diferentes, ele sai igual? (Se sim, é bom).
Estabilidade: Se mudarmos a forma de pedir a receita, a resposta muda muito? (Se não mudar, é bom).
Cobertura de Citação: O prato realmente usa os ingredientes que estão na mesa (o contexto fornecido)?

Se a nota de "falta de suporte" for muito alta, o inspetor bloqueia a saída da cozinha, não importa o que o chef diga.

O Problema: Se o chef inventar uma história muito convincente e consistente (uma "confabulação confiante"), o inspetor pode achar que está tudo certo e deixar passar.

3. A Magia: Juntar os Dois (A Arquitetura Composta)

O grande achado do artigo é que nenhum dos dois sozinho é perfeito, mas juntos eles são quase infalíveis.

Cenário A (O Chef é teimoso): O chef ignora o aviso e tenta inventar. O Inspeção Técnica vê que ele não tem os ingredientes e bloqueia a saída.
Cenário B (O Chef é muito confiante): O chef inventa uma história perfeita e consistente. O Inspeção Técnica fica confuso e deixa passar. Mas, como o Chef Consciente (o primeiro guardião) foi treinado para ser cauteloso, ele percebeu que algo estava estranho e disse "não".
Cenário C (O Chef é inseguro): O chef sabe a resposta, mas tem medo de errar e se recusa a cozinhar. O Inspeção Técnica vê que os ingredientes estão lá e diz: "Pode servir!".

Resultado: Ao usar os dois juntos, o sistema consegue responder com precisão de 96% a 98% e quase nunca inventa fatos (alucina menos de 4% das vezes).

4. O Teste de Estresse (TruthfulQA)

Os autores fizeram um teste extra: deram 100 perguntas para a IA, mas sem nenhum contexto (como pedir para o chef cozinhar um prato sem nenhuma comida na cozinha).

Só com o "Chef Consciente": Modelos mais simples (como o GPT-3.5) ignoraram o aviso e inventaram respostas em 38% dos casos.
Com o "Inspeção Técnica": O sistema bloqueou 100% das tentativas de resposta, independentemente de quão "inteligente" ou "simples" fosse o modelo.

Conclusão Simples

A lição principal é que, para evitar que a Inteligência Artificial invente mentiras com confiança, não basta apenas pedir para ela "ser honesta" (instrução). É preciso ter um sistema de verificação externo que pare a resposta se as evidências não estiverem lá.

Assim como uma porta de segurança que precisa de duas chaves para abrir (uma do funcionário e uma do sistema), a IA precisa de autocontrole e de verificação externa para garantir que o que ela diz é verdade, e não apenas uma história bem contada.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Hallucinação como Misclassificação na Fronteira de Saída

1. O Problema: A Natureza da Alucinação

O artigo aborda o problema persistente de alucinação em Grandes Modelos de Linguagem (LLMs), definido como a geração de afirmações não suportadas por evidências de entrada. Os autores propõem uma redefinição teórica do problema: a alucinação não é apenas um erro de conteúdo, mas um erro de misclassificação na fronteira de saída (output-boundary misclassification).

Mecanismo de Falha: O sistema falha ao emitir completagens geradas internamente (baseadas apenas em distribuições aprendidas ou "priors") como se fossem respostas fundamentadas em evidências externas.
O Loop de Falha: A query gera uma lacuna epistêmica $\rightarrow$ o modelo preenche com base em seus "priors" $\rightarrow$ essa completagem é emitida como uma resposta fundamentada $\rightarrow$ o usuário aceita.
Limitação das Abordagens Atuais: Estratégias existentes focam na detecção post-hoc (após a geração) ou em correção. O artigo argumenta que a intervenção deve ocorrer antes da emissão (controle pré-saída), distinguindo entre conteúdo meramente gerado e conteúdo suficientemente suportado para compromisso externo.

2. Metodologia: Arquitetura de Abstenção Composta

Os autores propõem uma arquitetura de controle que combina duas mecanismos complementares: recusa baseada em instruções e um portão estrutural de abstenção (structural abstention gate).

A. O Portão Estrutural (Gate)
O portão calcula um Score de Déficit de Suporte ( $S_t$ ) usando apenas sinais de "caixa-preta" (sem acesso aos pesos internos do modelo). O score é derivado de três sinais:

Autoconsistência ( $A_t$ ): Geração de $K=3$ respostas independentes; mede a fração de concordância por votação majoritária.
Estabilidade de Paráfrase ( $P_t$ ): A query é reescrita e reenviada; mede a sobreposição semântica entre a resposta original e a reescrita.
Cobertura de Citação ( $C_t$ ): Fração de palavras-chave na resposta que podem ser rastreadas até o contexto fornecido (proxy para atribuição).

O déficit de suporte é calculado como:
$S_t = 1 - \frac{A_t + P_t + C_t}{3}$

B. Política de Abstenção
O sistema emite a resposta apenas se $S_t \leq \tau$ (onde $\tau = 0.55$ ). Caso contrário, o sistema abstenção (ABSTAIN).

C. Condições de Avaliação
O estudo comparou quatro condições em três modelos (GPT-3.5-turbo, GPT-4o-mini, GPT-4o) através de 50 itens distribuídos em 5 regimes epistêmicos (R1 a R5):

Baseline: Geração padrão.
Apenas Instrução: Prompt sistêmico solicitando abstenção se a evidência for insuficiente.
Portão Rígido (Hard-gated): Apenas o portão estrutural bloqueia a saída.
Composta (Composite): Combinação lógica OR (bloqueia se a instrução recusar OU se $S_t > \tau$ ).

Regimes de Teste:

R1: Respostáveis (contexto suficiente).
R2: Não respondíveis (contexto vazio).
R3: Evidências conflitantes (fontes contraditórias).
R4: Recuperação degradada (contexto relacionado, mas sem resposta).
R5: Pressão adversária (instruções para responder com confiança mesmo sem dados).

Teste de Estresse Adicional: Um teste de 100 itens do TruthfulQA sem contexto para avaliar a capacidade de abstenção sob condições de ausência total de evidência.

3. Resultados Principais

A. Desempenho Geral (50 itens)

Composição vs. Isolamento: Nem o mecanismo de instrução nem o portão estrutural foram suficientes isoladamente.
- Instrução: Reduziu alucinações para 0% nos modelos GPT-4, mas causou abstenção excessiva (10% de itens respondíveis não foram respondidos) e falhou em alucinações residuais no GPT-3.5 (6%).
- Portão Estrutural: Preservou 100% de precisão em itens respondíveis (sem abstenção excessiva), mas falhou em detectar confabulação confiante em regimes de evidências conflitantes (R3), resultando em 70% de alucinação.
Arquitetura Composta: Alcançou 96–98% de precisão geral com apenas 0–4% de taxa de alucinação em todos os modelos.
- Para GPT-4o-mini/4o: Herdou a abstenção cautelosa da instrução (10% de itens respondíveis abstenidos), mas eliminou quase todas as alucinações.
- Para GPT-3.5-turbo: Reduziu a alucinação de 6% (instrução) para 4%, capturando casos de conflito que a instrução sozinha perdeu.

B. Teste de Estresse TruthfulQA (100 itens, sem contexto)

Baseline: 0% de abstenção (todos alucinaram).
Instrução: Dependente da capacidade do modelo. GPT-4 e GPT-4o-mini abstiveram-se em 100% dos casos; GPT-3.5 apenas em 62%.
Portão Estrutural: Forçou 98–100% de abstenção em todos os modelos, independentemente da capacidade de seguir instruções.
Composta: Mantive o piso de abstenção de 98–100% em todos os modelos.

C. Modos de Falha Complementares

Falha do Portão: Não detecta "confabulação confiante". Quando o modelo escolhe consistentemente um lado de um conflito (alta autoconsistência e estabilidade), o score $S_t$ permanece baixo, permitindo a emissão de uma resposta errada mas "estável".
Falha da Instrução: Pode ser excessivamente cautelosa em itens respondíveis (especialmente em modelos maiores) ou falhar em seguir instruções de abstenção em modelos menores (GPT-3.5) ou sob pressão adversária.

4. Contribuições Chave

Enquadramento Teórico: Propõe a alucinação como um erro de classificação na fronteira de saída, inspirado em modelos de processamento preditivo biológico.
Métrica de Déficit de Suporte: Desenvolvimento de um score ( $S_t$ ) baseado em sinais externos mensuráveis (autoconsistência, estabilidade, cobertura de citação) sem acesso aos pesos do modelo.
Arquitetura Composta: Evidência empírica de que a combinação de recusa baseada em instruções e portão estrutural é necessária para atingir taxas de alucinação próximas de zero, cobrindo os modos de falha um do outro.
Piso de Abstenção Independente de Capacidade: Demonstração de que o portão estrutural fornece uma camada de segurança que não degrada com a redução da capacidade do modelo (ao contrário das instruções verbais).

5. Significado e Implicações

Validação da Abstenção: O estudo valida que a abstenção é o ponto de controle primário correto para alucinação, superior à correção post-hoc.
Limites da Detecção de Sinais Negros: Identifica que sinais de consistência interna (como autoconsistência) podem ser enganosos quando o modelo está "confiantemente errado" (confabulação). Isso sugere a necessidade futura de sinais de detecção de conflito de fontes explícitos.
Trade-off Cobertura-Precisão: A arquitetura composta introduz um trade-off: para eliminar alucinações, aceita-se uma taxa de abstenção excessiva em itens respondíveis (especialmente em modelos GPT-4). Em domínios de alto risco (médico, legal), esse custo é justificado.
Custo Computacional: A arquitetura requer múltiplas chamadas de API (aprox. 22 chamadas por consulta para $K=3$ ), o que a torna inviável para conversas casuais, mas viável para aplicações críticas.

Conclusão: O artigo demonstra que o controle eficaz de alucinação não pode depender de um único mecanismo. A combinação de avaliação interna (instruções) e avaliação estrutural externa (portão) cria um sistema de segurança robusto que mitiga tanto a alucinação por falta de conhecimento quanto a alucinação por confiança excessiva em memórias paramétricas.