A Geometric Taxonomy of Hallucinations in LLMs

Este artigo propõe uma taxonomia geométrica de alucinações em LLMs, classificando-as em três tipos e introduzindo índices de detecção baseados em espaço de embeddings que demonstram alta eficácia na identificação de desvios de contexto e confabulações, ao mesmo tempo que expõem limitações metodológicas na detecção de erros factuais.

Javier Marín

Publicado Tue, 10 Ma
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT, são como chefes de cozinha extremamente talentosos, mas que nunca provaram a comida que cozinham. Eles aprendem milhões de receitas (textos) e sabem exatamente quais ingredientes (palavras) costumam aparecer juntos. O problema é que, às vezes, eles inventam pratos deliciosos que não existem na realidade, ou servem o prato errado para o cliente.

Este artigo, escrito por Javier Marín, propõe uma nova maneira de entender e detectar esses "alucinações" (erros) usando uma geometria invisível. Em vez de ler o texto para ver se é verdade, o método olha para a "forma" que a resposta tem no espaço mental do computador.

Aqui está a explicação simplificada, dividida em três tipos de erros e como o autor os pega no flagra:

1. O Mapa Mental Invisível (A Geometria)

Pense que todas as palavras e ideias existem em um grande mapa tridimensional (uma esfera).

  • Se você pergunta sobre "maçãs", a resposta correta sobre "maçãs" deve ficar perto da palavra "maçã" nesse mapa.
  • Se a resposta é sobre "carros", ela fica longe.
  • O autor descobriu que, quando o modelo erra, ele não apenas "diz a mentira", mas se move em uma direção geométrica diferente no mapa.

2. Os Três Tipos de "Alucinação" (A Taxonomia)

O autor divide os erros em três categorias, como se fossem três tipos de desastres culinários:

Tipo I: O Chef Preguiçoso (Ignorar o Contexto)

  • O que é: Você entrega ao chef uma receita específica (o contexto) e diz: "Faça este bolo". O chef, em vez de ler sua receita, fecha os olhos e faz o bolo que ele acha que é o melhor, ignorando suas instruções.
  • A Geometria: A resposta fica "grudada" na sua pergunta, mas não se move em direção à receita que você deu. É como se ele estivesse olhando para você, mas não para a mesa de trabalho.
  • Como detectar: O autor criou uma régua chamada SGI. Se a resposta não se aproximar da receita fornecida no mapa, é um erro.

Tipo II: O Chef Inventor (Confabulação)

  • O que é: O chef cria um ingrediente que não existe. "Adicione um pouco de pó de estrela ao bolo". O texto parece perfeito, a gramática está correta, mas o conceito é totalmente falso e inventado.
  • A Geometria: Aqui, a resposta sai "voando" para uma direção estranha no mapa, longe de qualquer lugar onde uma resposta real poderia estar. É como se o chef tivesse saído da cozinha e ido para a Lua.
  • Como detectar: O autor criou uma bússola chamada Γ (Gama). Ela mede se a resposta está seguindo a direção lógica das respostas verdadeiras. Se a resposta "desvia" para uma direção anormal, a bússola toca o alarme.
    • Resultado: Esse método é muito bom (95% de precisão) para pegar invenções puras, superando métodos antigos que só olhavam para a lógica das frases.

Tipo III: O Chef Detalhista Errado (Erro Factual)

  • O que é: O chef sabe que é um bolo de chocolate, mas coloca 5 ovos em vez de 3. O conceito está certo (é um bolo de chocolate), mas o detalhe está errado.
  • A Geometria: Este é o problema mais difícil. No mapa mental, "3 ovos" e "5 ovos" estão no mesmo lugar. A geometria não consegue distinguir o certo do errado porque ambos são "bolos de chocolate".
  • A Surpresa: O autor testou um famoso teste de perguntas (TruthfulQA) e viu que, quando os computadores pareciam acertar, na verdade estavam apenas adivinhando o estilo de escrita (frases longas vs. curtas), e não a verdade.
  • Conclusão: Esse tipo de erro é invisível para a geometria. O computador não consegue saber se é verdade ou mentira apenas olhando a "forma" da frase.

3. O Grande Aprendizado

O artigo nos ensina duas coisas principais:

  1. Nem todo erro é igual: Às vezes o modelo ignora você (Tipo I), às vezes ele inventa coisas do nada (Tipo II) e às vezes ele erra um detalhe sutil (Tipo III). Cada um tem uma "assinatura" diferente no mapa mental.
  2. Onde a tecnologia funciona e onde falha:
    • Funciona muito bem para pegar quando o modelo ignora o que você disse ou inventa coisas totalmente novas.
    • Falha quando o modelo sabe o assunto geral, mas erra um número ou um nome específico. Nesse caso, a "geometria" não ajuda, porque a mentira parece muito com a verdade no mapa.

Resumo em uma Metáfora Final

Imagine que você está tentando encontrar um amigo em uma cidade gigante (o mapa de palavras).

  • Tipo I: Seu amigo diz "Estou na praça central", mas você o vê andando em direção ao porto. Você sabe que ele mentiu porque a direção dele não bate com a instrução.
  • Tipo II: Seu amigo diz "Estou na Lua". Você sabe que é mentira porque ele está em uma direção que não existe na cidade.
  • Tipo III: Seu amigo diz "Estou na praça central, mas sentado na cadeira azul" (quando na verdade está na vermelha). No mapa da cidade, a "praça central" é o mesmo lugar, seja na cadeira azul ou vermelha. Não há como saber a cor da cadeira apenas olhando o mapa.

O autor conclui que precisamos aceitar que, para certos tipos de erros sutis, a tecnologia atual de "olhar a forma" não é suficiente, e precisamos de outras formas de verificar a verdade.