Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, que leu quase todos os livros do mundo e consegue conversar sobre qualquer coisa. Esse amigo é como os Modelos de Linguagem (LLMs) que usamos hoje, como o ChatGPT.

O problema é que, às vezes, esse amigo é tão confiante e eloquente que inventa fatos. Ele pode dizer que "o Brasil fica na Europa" com tanta certeza que você acaba acreditando. Isso é chamado de alucinação. É como se ele estivesse sonhando acordado e misturando a realidade com a ficção.

Os pesquisadores deste artigo (do Instituto de Tecnologia de Stevens) queriam resolver isso sem precisar "reprogramar" o cérebro do amigo (o que seria caro e demorado). Em vez disso, eles criaram um novo método chamado CoCoA.

Aqui está a explicação simples de como funciona, usando analogias do dia a dia:

1. A Ideia Principal: Ouvir as "Camadas"

Pense na inteligência do modelo não como uma única mente, mas como uma orquestra com várias seções (violinos, trompetes, bateria, etc.). Cada seção representa uma "camada" interna do modelo.

O que acontece normalmente: Quando o modelo vai responder, ele ignora se as seções da orquestra estão tocando a mesma nota. Se os violinos dizem "é a Califórnia" e os trompetes dizem "é a Geórgia", o modelo pode simplesmente escolher a primeira resposta que vem à mente, mesmo que esteja confuso.
A descoberta: Os autores notaram que, quando o modelo está falando a verdade, todas as seções da orquestra tocam em harmonia. Mas, quando ele está alucinando (inventando), as seções começam a brigar. Os violinos tocam uma música, os trompetes tocam outra. Há um "desacordo" interno.

2. A Solução: O "Ouvido Crítico" (CoCoA)

O CoCoA é como um maestro novo e muito atento que fica no meio da orquestra durante a apresentação.

O que ele faz: Antes de o modelo soltar a resposta final, o CoCoA escuta rapidamente o que cada seção está pensando.
A Regra de Ouro: Se ele percebe que as seções estão em desacordo (alta confusão), ele diz: "Ei, parem! Vocês não estão concordando. Isso parece perigoso. Vamos tentar outra resposta."
O Resultado: Ele penaliza as respostas confusas e incentiva aquelas onde todas as "seções" do modelo estão de acordo. É como se ele dissesse: "Só aceito a resposta se todos os músicos estiverem tocando a mesma nota."

3. O Truque Especial: O "Filtro de Surpresa" (CoCoA-SIG)

O modelo tem um segundo modo, chamado CoCoA-SIG, que é ainda mais esperto.

Imagine que você está em uma festa. Se alguém conta uma história normal, você ouve. Mas se alguém começa a gritar algo totalmente inesperado e estranho (uma "surpresa"), você presta ainda mais atenção.

O CoCoA-SIG faz isso: ele dá um peso maior para as respostas que o modelo acha mais "surpreendentes" ou difíceis. Se o modelo está tentando inventar algo que ele não sabe bem, essa "surpresa" interna é detectada, e o filtro aplica uma punição ainda maior para evitar o erro.

4. Por que isso é legal?

Sem Treinamento: Eles não precisaram ensinar o modelo de novo (o que custaria milhões de dólares em energia e tempo). Eles apenas mudaram a forma como o modelo "escolhe" a resposta no momento em que você pede.
Funciona em Tudo: Eles testaram em perguntas de história, matemática, código de programação e resumos de notícias. Em todos os casos, o modelo com o CoCoA mentiu menos e foi mais útil.
Rápido: A mudança é tão leve que o modelo continua respondendo quase na mesma velocidade, sem ficar lento.

Resumo da Ópera

Imagine que o modelo de linguagem é um aluno que estuda muito, mas às vezes chuta a resposta na prova. O CoCoA é como um professor que, antes de o aluno entregar a prova, olha rapidamente para o "rascunho" mental dele. Se o professor vê que o aluno está confuso (os pensamentos dele não batem), ele avisa: "Não entregue isso, você está se contradizendo. Pense de novo."

Isso faz com que o modelo entregue respostas mais verdadeiras e confiáveis, sem precisar de um "reboot" completo do sistema. É uma forma inteligente de ouvir a própria "consciência" do modelo para evitar mentiras.

Each language version is independently generated for its own context, not a direct translation.

Título: Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Autores: Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour Soofi (Stevens Institute of Technology).

1. O Problema

Os Grandes Modelos de Linguagem (LLMs) pré-treinados são propensos a gerar textos fluentes, mas factualmente incorretos, um fenômeno conhecido como alucinação. Isso compromete a confiabilidade e a utilidade dos modelos em tarefas downstream, especialmente em aplicações críticas e sistemas autônomos.

As abordagens existentes para mitigar alucinações geralmente envolvem:

Retreinamento: Ajuste fino (fine-tuning) ou aprendizado por reforço com feedback humano (RLHF), que são custosos.
RAG (Geração Aumentada por Recuperação): Uso de dados externos, que depende da qualidade da recuperação.
Verificação Pós-hoc: Correção após a geração.
Decodificação em Tempo de Inferência: Métodos que analisam o estado interno do modelo sem modificá-lo.

A maioria dos métodos de decodificação existentes trata o modelo como uma "caixa preta" ou contrasta camadas finais com camadas iniciais, sem focar especificamente na região onde o conhecimento factual é processado.

2. Metodologia e Proposta

Os autores propõem uma hipótese central baseada em trabalhos recentes de interpretabilidade mecânica: o conhecimento factual não é distribuído uniformemente no modelo, mas é processado principalmente nas camadas intermediárias (meio). Eles hipotetizam que a estabilidade representacional nessas camadas intermediárias correlaciona-se com a factualidade da saída. Se houver instabilidade ou "desacordo" semântico entre essas camadas, é um sinal de alucinação.

Baseado nisso, eles propõem o CoCoA (Confusion and Consistency Aware), um novo algoritmo de decodificação sem necessidade de treinamento (training-free).

Métricas de Instabilidade (Desacordo)

Para quantificar a instabilidade nas camadas intermediárias, são propostas duas métricas:

ConMLDS (Consecutive Middle Layer Disagreement Score): Calcula a distância de cosseno (discordância) entre as representações de vetores ocultos de camadas intermediárias consecutivas.
fMLDS (Relative Middle Layer Disagreement Score): Calcula a discordância entre cada camada intermediária e a camada final (que serve como referência).

Ambas as métricas agregam as representações dos tokens de um span candidato (usando mean pooling) e medem a inconsistência semântica à medida que o dado atravessa as camadas do meio.

O Decodificador CoCoA

O algoritmo modifica o processo de decodificação padrão (greedy) de duas formas:

Geração por Spans: Gera spans de tokens (não apenas um token por vez) para obter melhor contexto.
Penalização por Desacordo: Penaliza spans que exibem alta confusão (alto MLDS). A probabilidade logarítmica de um span $S$ é ajustada subtraindo uma penalidade ponderada:
$\text{Score} = \log p(S) - \alpha \cdot \text{MLDS}(S)$
Onde $\alpha$ é um fator de peso. Spans com alto desacordo interno recebem uma penalidade maior, reduzindo sua probabilidade de seleção.

Variação CoCoA-SIG (Self-Information Gated)

Para refinar a penalização, os autores introduzem o CoCoA-SIG. Esta variante modula a penalidade com base na auto-informação (surpresa) do span.

A penalidade é escalada pelo termo $-\log(p(S))$ .
Lógica: Spans menos prováveis (alta auto-informação/surpresa) são penalizados mais fortemente se exibirem instabilidade, pois é nesses "pontos de divergência" que as alucinações tendem a ocorrer. Spans altamente prováveis sofrem menos intervenção, preservando a fluência.
$\text{Score}_{SIG} = \log p(S) \cdot [1 + \alpha \cdot \text{MLDS}(S)]$

O método aplica-se seletivamente apenas em pontos de divergência (onde a probabilidade do token não é dominante), mantendo a decodificação padrão (greedy) em outros momentos para eficiência.

3. Contribuições Principais

Novas Métricas de Instabilidade: Introdução do ConMLDS e fMLDS para quantificar a inconsistência representacional nas camadas intermediárias.
Decodificador CoCoA: Um decodificador sem treinamento que usa essas métricas para guiar a geração para saídas mais consistentes e factualmente fundamentadas.
Variação CoCoA-SIG: Uma abordagem adaptativa que usa auto-informação para modular a penalidade, focando em gerações de alta surpresa e instáveis.
Validação Empírica: Demonstração de que o método funciona em diversas famílias de modelos (Llama-3, Mistral, Qwen) e tarefas (QA, resumo, código, raciocínio matemático) sem re-treinamento.

4. Resultados Experimentais

Os autores avaliaram o CoCoA e o CoCoA-SIG em múltiplos benchmarks:

Datasets: TruthfulQA, Natural Questions (NQ), NQ-Swap, SAMSum, XSum, MBPP (código) e GSM8K (matemática).
Modelos: Llama-3-8B, Mistral-7B, Qwen-2.5 (7B, 14B, 32B), CodeLlama-7B.
Baselines Comparados: Greedy Decoding, DoLa (Decoding by Contrasting Layers), DeCoRe e Diver.

Principais Achados:

Melhoria na Factualidade: O CoCoA-SIG (com ConMLDS) obteve consistentemente os melhores resultados em métricas de verdade (Truthfulness) e na combinação de verdade e informatividade ( $T \times I$ $T \times I$ ) no TruthfulQA.
- Exemplo: No Llama-3-8B, houve uma melhoria de 12,39 pontos percentuais em $T \times I$ em relação ao Greedy e superou o baseline mais forte (DeCoRe) em 1,57 pontos.
Desempenho em Tarefas Diversas:
- Resumo (SAMSum/XSum): Melhorou a precisão factual (FActScore) sem sacrificar a qualidade do resumo (ROUGE-L).
- Código e Matemática: Melhorou o Pass@1 no MBPP e a precisão no GSM8K, indicando que a estabilidade interna ajuda no raciocínio complexo.
Eficiência: O método introduz uma sobrecarga de latência modesta (aprox. 1,3x em relação ao Greedy), sendo significativamente mais rápido que métodos como Diver (6,2x) e DeCoRe (2,16x).
Significância Estatística: Testes de Wilcoxon confirmaram que as métricas de desacordo diferenciam estatisticamente respostas alucinadas de respostas corretas ( $p < 10^{-14}$ ).

5. Significância e Conclusão

O trabalho apresenta uma solução eficaz e amplamente aplicável para aumentar a confiabilidade dos LLMs no momento da inferência. Ao "escutar" os sinais intrínsecos de confusão nas camadas intermediárias do modelo, o CoCoA consegue mitigar alucinações sem a necessidade de:

Retreinamento do modelo (custo computacional alto).
Acesso a dados externos (RAG).
Modificação dos pesos do modelo.

A descoberta de que a instabilidade nas camadas do meio é um indicador robusto de alucinação abre novas fronteiras para métodos de decodificação baseados em interpretabilidade mecânica, oferecendo um caminho prático para tornar os LLMs mais confiáveis em aplicações do mundo real.