A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT, são como chefes de cozinha extremamente talentosos, mas que nunca provaram a comida que cozinham. Eles aprendem milhões de receitas (textos) e sabem exatamente quais ingredientes (palavras) costumam aparecer juntos. O problema é que, às vezes, eles inventam pratos deliciosos que não existem na realidade, ou servem o prato errado para o cliente.

Este artigo, escrito por Javier Marín, propõe uma nova maneira de entender e detectar esses "alucinações" (erros) usando uma geometria invisível. Em vez de ler o texto para ver se é verdade, o método olha para a "forma" que a resposta tem no espaço mental do computador.

Aqui está a explicação simplificada, dividida em três tipos de erros e como o autor os pega no flagra:

1. O Mapa Mental Invisível (A Geometria)

Pense que todas as palavras e ideias existem em um grande mapa tridimensional (uma esfera).

Se você pergunta sobre "maçãs", a resposta correta sobre "maçãs" deve ficar perto da palavra "maçã" nesse mapa.
Se a resposta é sobre "carros", ela fica longe.
O autor descobriu que, quando o modelo erra, ele não apenas "diz a mentira", mas se move em uma direção geométrica diferente no mapa.

2. Os Três Tipos de "Alucinação" (A Taxonomia)

O autor divide os erros em três categorias, como se fossem três tipos de desastres culinários:

Tipo I: O Chef Preguiçoso (Ignorar o Contexto)

O que é: Você entrega ao chef uma receita específica (o contexto) e diz: "Faça este bolo". O chef, em vez de ler sua receita, fecha os olhos e faz o bolo que ele acha que é o melhor, ignorando suas instruções.
A Geometria: A resposta fica "grudada" na sua pergunta, mas não se move em direção à receita que você deu. É como se ele estivesse olhando para você, mas não para a mesa de trabalho.
Como detectar: O autor criou uma régua chamada SGI. Se a resposta não se aproximar da receita fornecida no mapa, é um erro.

Tipo II: O Chef Inventor (Confabulação)

O que é: O chef cria um ingrediente que não existe. "Adicione um pouco de pó de estrela ao bolo". O texto parece perfeito, a gramática está correta, mas o conceito é totalmente falso e inventado.
A Geometria: Aqui, a resposta sai "voando" para uma direção estranha no mapa, longe de qualquer lugar onde uma resposta real poderia estar. É como se o chef tivesse saído da cozinha e ido para a Lua.
Como detectar: O autor criou uma bússola chamada Γ (Gama). Ela mede se a resposta está seguindo a direção lógica das respostas verdadeiras. Se a resposta "desvia" para uma direção anormal, a bússola toca o alarme.
- Resultado: Esse método é muito bom (95% de precisão) para pegar invenções puras, superando métodos antigos que só olhavam para a lógica das frases.

Tipo III: O Chef Detalhista Errado (Erro Factual)

O que é: O chef sabe que é um bolo de chocolate, mas coloca 5 ovos em vez de 3. O conceito está certo (é um bolo de chocolate), mas o detalhe está errado.
A Geometria: Este é o problema mais difícil. No mapa mental, "3 ovos" e "5 ovos" estão no mesmo lugar. A geometria não consegue distinguir o certo do errado porque ambos são "bolos de chocolate".
A Surpresa: O autor testou um famoso teste de perguntas (TruthfulQA) e viu que, quando os computadores pareciam acertar, na verdade estavam apenas adivinhando o estilo de escrita (frases longas vs. curtas), e não a verdade.
Conclusão: Esse tipo de erro é invisível para a geometria. O computador não consegue saber se é verdade ou mentira apenas olhando a "forma" da frase.

3. O Grande Aprendizado

O artigo nos ensina duas coisas principais:

Nem todo erro é igual: Às vezes o modelo ignora você (Tipo I), às vezes ele inventa coisas do nada (Tipo II) e às vezes ele erra um detalhe sutil (Tipo III). Cada um tem uma "assinatura" diferente no mapa mental.
Onde a tecnologia funciona e onde falha:
- Funciona muito bem para pegar quando o modelo ignora o que você disse ou inventa coisas totalmente novas.
- Falha quando o modelo sabe o assunto geral, mas erra um número ou um nome específico. Nesse caso, a "geometria" não ajuda, porque a mentira parece muito com a verdade no mapa.

Resumo em uma Metáfora Final

Imagine que você está tentando encontrar um amigo em uma cidade gigante (o mapa de palavras).

Tipo I: Seu amigo diz "Estou na praça central", mas você o vê andando em direção ao porto. Você sabe que ele mentiu porque a direção dele não bate com a instrução.
Tipo II: Seu amigo diz "Estou na Lua". Você sabe que é mentira porque ele está em uma direção que não existe na cidade.
Tipo III: Seu amigo diz "Estou na praça central, mas sentado na cadeira azul" (quando na verdade está na vermelha). No mapa da cidade, a "praça central" é o mesmo lugar, seja na cadeira azul ou vermelha. Não há como saber a cor da cadeira apenas olhando o mapa.

O autor conclui que precisamos aceitar que, para certos tipos de erros sutis, a tecnologia atual de "olhar a forma" não é suficiente, e precisamos de outras formas de verificar a verdade.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Uma Taxonomia Geométrica de Alucinações em LLMs

1. O Problema

O termo "alucinação" em Grandes Modelos de Linguagem (LLMs) é frequentemente usado de forma genérica para descrever textos fluentes, mas factualmente incorretos. No entanto, o artigo argumenta que este termo agrupa modos de falha distintos com raízes e consequências diferentes:

Deslealdade (Unfaithfulness): O modelo ignora o contexto fornecido.
Confabulação: O modelo inventa entidades ou conceitos que não existem.
Erro Factual: O modelo fornece detalhes errados dentro de um conceito correto.

O problema central é que as métricas de detecção atuais muitas vezes falham em distinguir essas categorias, e muitos benchmarks são construídos com base em modelos sendo instruídos a "mentir", capturando a geometria da fabricação forçada em vez do erro factual genuíno. O artigo propõe que essas falhas possuem assinaturas geométricas distintas no espaço de incorporação (embedding space), especificamente na hipersfera unitária ( $S^{d-1}$ ).

2. Metodologia e Taxonomia

Os autores propõem uma taxonomia baseada na geometria das representações vetoriais (ângulos e distâncias geodésicas) e introduzem dois índices de detecção:

Tipo I: Deslealdade (Unfaithfulness)
- Definição: O modelo gera texto baseado na memória paramétrica, ignorando o contexto fornecido.
- Assinatura Geométrica: A resposta permanece angularmente próxima da consulta (query) em vez de mover-se em direção ao contexto.
- Método de Detecção: Índice de Grounding Semântico (SGI).
  - Fórmula: $SGI = \theta(r, q) / \theta(r, c)$ , onde $\theta$ é a distância angular, $r$ é a resposta, $q$ a consulta e $c$ o contexto.
  - Critério: Se $SGI > 1$ , a resposta está mais próxima do contexto (grounded). Se $SGI \le 1$ , é uma alucinação do Tipo I.
Tipo II: Confabulação
- Definição: O modelo inventa entidades, mecanismos ou conceitos que não existem (conteúdo semanticamente estrangeiro).
- Assinatura Geométrica: O deslocamento da resposta parte do "manifold" (variedade) de respostas plausíveis em direções geometricamente detectáveis.
- Método de Detecção: Índice de Grounding Direcional ( $\Gamma$ ).
  - Calcula o vetor de deslocamento normalizado entre a consulta e a resposta e mede seu alinhamento com uma direção média de grounding aprendida a partir de pares verificados.
  - Valores baixos ou negativos indicam deslocamento anômalo (confabulação).
Tipo III: Erro Factual
- Definição: Detalhes errados dentro de um quadro conceitual correto (ex: uma data errada para um evento real).
- Assinatura Geométrica: Invisível. Como as representações distribucionais codificam co-ocorrência e não condições de verdade, uma resposta com erro factual ocupa a mesma região do espaço de incorporação que a resposta correta. A geometria angular não consegue distinguir entre "verdade" e "erro factual" neste caso.

3. Contribuições Principais

Taxonomia Operacional: Define três tipos de alucinação baseados em assinaturas geométricas distintas, resolvendo a ambiguidade terminológica.
Novos Métodos de Detecção:
- SGI: Para detecção de alucinações baseadas em contexto (Tipo I).
- $\Gamma$ : Para detecção de confabulações sem contexto (Tipo II), exigindo apenas uma chamada de embedding (sem necessidade de acesso aos pesos do modelo ou múltiplas gerações).
Análise de Limites Teóricos: Demonstra que o erro factual (Tipo III) é geometricamente indetectável por métodos baseados em ângulo, pois a geometria do embedding reflete similaridade semântica, não veracidade factual.
Validação Externa Rigorosa: Teste em três benchmarks independentes anotados por humanos (WikiBio, FELM, ExpertQA) e investigação detalhada do TruthfulQA.

4. Resultados Chave

Desempenho no Tipo I (SGI):
- Em HaluEval QA, o SGI alcançou uma AUROC média de 0.805 entre diferentes arquiteturas de embeddings.
- Respostas grounded consistentemente mostraram $SGI > 1$ , enquanto respostas desleais mostraram $SGI \le 1$ .
Desempenho no Tipo II ( $\Gamma$ ):
- Em confabulações criadas por humanos (142 exemplos em finanças, medicina e direito), o método $\Gamma$ alcançou uma AUROC de 0.958 ± 0.034.
- Superou significativamente a linha de base NLI (CrossEncoder) que obteve apenas 0.611, pois a NLI falha ao detectar deslocamentos fora do manifold de plausibilidade quando a sintaxe é coerente.
- Degradação de domínio foi baixa (3.8%) em dados humanos, mas alta em benchmarks gerados por LLMs (onde a direção de grounding é quase ortogonal entre domínios).
Validação Externa (Benchmarks Humanos):
- ExpertQA (Domínio Especializado): $\Gamma$ superou a NLI por $\Delta = 0.243$ (AUROC 0.695 vs 0.452). A NLI operou ao nível do acaso, confirmando que erros de especialistas são compatíveis com a implicação superficial, mas geometricamente distintos.
- WikiBio: O $\Gamma$ falhou (AUROC 0.581), pois a anotação deste conjunto de dados confunde erros de Tipo II e Tipo III (qualquer detalhe errado é marcado como erro), tornando-o geometricamente incomensurável com o regime de confabulação pura.
Análise do Tipo III (TruthfulQA):
- Um classificador linear (LR) alcançou AUROC 0.731, mas a análise revelou que isso era um artefato estilístico (respostas falsas eram mais curtas e declarativas; as verdadeiras mais longas e cautelosas).
- O método $\Gamma$ , que não captura esse estilo, obteve AUROC 0.535 (não significativo), confirmando que a geometria pura não detecta erros factuais dentro de um quadro conceitual correto.

5. Significado e Conclusões

O artigo estabelece que a detecção de alucinações não é um problema uniforme, mas depende fundamentalmente do tipo de falha:

O que é detectável: A falta de alinhamento com o contexto (Tipo I) e a invenção de conceitos não existentes (Tipo II) possuem assinaturas geométricas claras e podem ser detectadas eficientemente usando apenas a geometria de embeddings.
O que é indetectável geometricamente: Erros factuais sutis (Tipo III) são inerentemente invisíveis para métodos baseados em ângulo, pois a distribuição estatística de palavras não codifica a verdade factual.
Implicação Prática: Métodos de detecção devem ser escolhidos com base no tipo de risco esperado. O uso de benchmarks gerados por LLMs pode levar a conclusões enganosas sobre a generalização de detectores, pois eles capturam artefatos de geração em vez de regimes de confabulação real.

Em suma, a taxonomia fornece um limite teórico claro: a geometria do espaço de incorporação pode identificar quando um modelo está "inventando" ou "ignorando", mas não pode determinar se um detalhe específico dentro de uma história plausível é verdadeiro ou falso.