Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

O artigo propõe o framework CAPL, que combina calibração de atenção inter-imagem e aprendizado por preferência para mitigar alucinações em modelos de linguagem e visão grandes, melhorando a modelagem de associações entre múltiplas imagens e a fundamentação em evidências visuais autênticas.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas que às vezes "alucina" quando você mostra a ele duas fotos ao mesmo tempo.

O Problema: O Amigo que Só Vê o Passado
Normalmente, esses modelos de inteligência artificial (como o Qwen ou o InternVL) funcionam como uma pessoa lendo um livro de capa a capa. Se você mostrar a foto A e depois a foto B, o modelo consegue ver a B e lembrar da A. Mas, ele não consegue olhar para trás e ver como a A se conecta com a B de forma equilibrada. É como se ele tivesse uma visão de túnel: só consegue olhar para o que está "à frente" na fila.

Por causa disso, quando você pergunta: "A foto A e a foto B mostram o mesmo objeto?", ele pode inventar uma resposta baseada apenas no que ele acha que deveria ser verdade (baseado em texto), em vez de olhar realmente para as duas fotos e comparar. Ele "alucina" porque não consegue fazer uma conexão visual real entre as duas imagens.

A Solução: O "CAPL" (O Detetive de Duas Lentes)
Os autores criaram uma nova técnica chamada CAPL (Calibração de Atenção Cruzada e Aprendizado de Preferência). Vamos usar uma analogia de um Detetive para explicar como funciona:

1. A Calibração da Atenção (O Óculos de Visão Dupla)

Antes, o detetive olhava para a foto A e depois para a foto B, mas não podia olhar para a foto A enquanto analisava a B.

  • A Mudança: O CAPL coloca um "óculos especial" no modelo. Agora, quando ele olha para a foto B, ele pode olhar de volta para a foto A instantaneamente.
  • O Filtro Inteligente: Como olhar para tudo de uma vez pode ser confuso (muita informação), o modelo aprende a escolher apenas os "detalhes importantes" (como um rosto ou um carro) de cada foto para comparar. É como se ele dissesse: "Não preciso comparar o céu das duas fotos, mas preciso comparar o cachorro da foto 1 com o cachorro da foto 2". Isso cria uma conversa real entre as imagens.

2. O Aprendizado de Preferência (O Treino com o "Pior Cenário")

Aqui está a parte mais criativa. Como ensinar o modelo a não alucinar?

  • O Cenário Normal (Positivo): O modelo usa os "óculos especiais" e vê as duas fotos conectadas. Ele dá a resposta correta.
  • O Cenário de Treino (Negativo): Os pesquisadores fazem uma "mágica" no treino: eles cortam a conexão entre as fotos. É como se o modelo fosse forçado a olhar para a foto B com os olhos vendados, sem poder ver a foto A.
    • Nesse estado cego, o modelo é forçado a chutar ou inventar (alucinar) porque não tem a prova visual.
    • O modelo recebe uma "piscadinha" (feedback) dizendo: "Ei, essa resposta que você deu quando estava cego está errada! A resposta certa é aquela que você deu quando usou os óculos e viu as duas fotos juntas."

Ao fazer isso milhares de vezes, o modelo aprende: "Ah, quando eu não consigo conectar as imagens, eu erro. Quando eu conecto, eu acerto. Vou sempre tentar conectar as imagens!"

3. O Resultado: Um Super-Herói das Imagens

Depois desse treino, o modelo se torna muito melhor em:

  • Comparar fotos: Saber se duas fotos são iguais ou diferentes.
  • Contar objetos: Saber quantos gatos existem se você mostrar 3 fotos de gatos.
  • Não inventar: Parar de dizer coisas que não estão nas fotos.

O Grande Truque:
O mais impressionante é que, mesmo treinado para olhar duas fotos, o modelo não esqueceu como olhar para uma só. Ele continua bom em tarefas simples de imagem única, como descrever uma foto de um gato, mas agora com uma "visão mais aguçada" para quando o desafio aumenta.

Resumo em uma frase:
O CAPL ensina a inteligência artificial a não apenas olhar para as fotos uma por uma, mas a conversar entre elas para não inventar histórias, usando um treino inteligente onde ela aprende com seus próprios erros de "cegueira".