ConFoThinking: Consolidated Focused Attention Driven Thinking for Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, mas um pouco desastrado, chamado MLLM (um Modelo de Linguagem Multimodal). Ele é ótimo em conversar e resolver problemas, mas quando você lhe mostra uma foto grande e cheia de detalhes e faz uma pergunta específica (como "Qual é a cor do logotipo da maçã?"), ele tende a dar um "chute" no escuro.

O problema não é que ele não sabe a resposta; é que ele não sabe onde olhar na foto com precisão.

Aqui está a explicação do método ConFoThinking, usando analogias do dia a dia:

1. O Problema: O "Chute" Desastrado e o Mapa Confuso

Existem duas formas principais que os computadores tentam usar para "olhar" melhor:

O Chute Desastrado (Método de Coordenadas):
Imagine que você pede para seu amigo desenhar um quadrado na foto com um lápis para mostrar onde está a maçã. O problema é que ele é muito bom em pensar onde a maçã está, mas muito ruim em dizer as coordenadas exatas (ex: "começa no pixel 102, termina no 305"). Ele pode saber que a maçã está ali, mas quando tenta escrever os números, ele erra e desenha o quadrado em cima do fundo azul.
- Analogia: É como tentar desenhar um mapa de memória enquanto está de olhos vendados. Você sabe onde está a casa, mas desenha a rua errada.
O Mapa Confuso (Método de Atenção):
Outra ideia é usar o "olhar" do computador (chamado de atenção). A ideia é: "Onde o computador está olhando com mais força, é ali que devemos dar zoom".
- O Problema: O olhar do computador é instável. Às vezes, ele olha para a maçã na camada 10 do cérebro, mas na camada 20 ele olha para o fundo. É como se você tivesse 30 óculos diferentes; em alguns, a maçã está nítida, em outros, ela está borrada ou sumiu. Se você escolher o óculo errado, vai dar zoom no lugar errado.
- O Ruído: Além disso, se você perguntar "Qual a cor da maçã?", o computador se distrai com palavras demais. É como tentar encontrar uma agulha num palheiro enquanto alguém grita uma lista de compras ao seu lado.

2. A Solução: ConFoThinking (O Detetive Focado)

Os autores criaram o ConFoThinking para resolver isso. Eles não tentam forçar o computador a desenhar quadrados perfeitos. Em vez disso, eles ensinam o computador a fazer três coisas simples:

Passo 1: O "Foco" Semântico (A Lente de Aumento Mental)

Em vez de pedir coordenadas, o modelo é treinado para gerar uma frase curta e direta dentro de tags especiais <FOCUS>...</FOCUS>.

Analogia: Imagine que, em vez de pedir "Dê-me as coordenadas X e Y", você diz ao seu amigo: "Olhe para as letras grandes no topo".
O modelo aprende a dizer: "O elemento que devemos examinar é o texto grande no centro". Isso remove o ruído da pergunta longa e foca a mente do computador apenas no que importa.

Passo 2: Consolidar o Olhar (O Óculo Perfeito)

O modelo é treinado para garantir que esse "olhar" (atenção) aconteça sempre no mesmo lugar do cérebro (na mesma camada da rede neural).

Analogia: Antes, o olhar do computador saltava de um óculo para outro. Com o ConFoThinking, eles ensinaram o computador a usar sempre o "Óculo 22". Agora, não importa a foto, quando ele usa o Óculo 22, a imagem da maçã está sempre nítida e no lugar certo. Isso cria um mapa de calor (heatmap) super estável.

Passo 3: O Tradutor (AttnDetector)

Agora que temos um mapa de calor perfeito (uma mancha brilhante onde a maçã está), precisamos transformar isso em um quadrado para dar zoom.

Analogia: O ConFoThinking usa um "tradutor" especial chamado AttnDetector. Ele pega aquela mancha brilhante no mapa e a converte em coordenadas precisas. Como o mapa já estava perfeito, o tradutor não precisa chutar; ele só precisa "ler" o mapa.

3. O Resultado: A Resposta Correta

O processo final funciona assim:

O modelo lê a pergunta e gera a frase de foco: <FOCUS>Olhe para o texto grande no topo</FOCUS>.
Ele usa essa frase para criar um mapa de calor super nítido na "camada 22".
O tradutor (AttnDetector) transforma esse mapa em um quadrado de recorte.
O computador dá um "zoom" nessa parte da foto.
Com a imagem ampliada e clara, ele responde: "A cor é vermelha".

Resumo em uma Frase

O ConFoThinking ensina o computador a parar de tentar adivinhar coordenadas matemáticas difíceis e, em vez disso, a usar uma "frase de foco" para criar um mapa mental estável, garantindo que ele dê zoom exatamente onde precisa para responder à pergunta.

É como trocar um mapa desenhado às pressas por um GPS que sempre aponta para o destino certo, permitindo que o computador veja os detalhes que antes estavam borrados.

Each language version is independently generated for its own context, not a direct translation.

Título: ConFoThinking: Pensamento Orientado por Atenção Focada Consolidada para Resposta a Perguntas Visuais (VQA)

1. O Problema

Os Modelos de Linguagem Multimodal (MLLMs) têm avançado rapidamente, mas em tarefas de VQA de alta granularidade (especialmente em imagens de alta resolução), os erros frequentemente decorrem da falha em identificar a evidência visual correta, e não da falta de capacidade de raciocínio.

A abordagem atual "Pensar com Imagens" (Thinking with Images) tenta resolver isso permitindo que o modelo realize operações no espaço da imagem, como recortar (crop) e ampliar (zoom) regiões de interesse (ROIs). No entanto, os métodos existentes apresentam três falhas principais:

Inconsistência entre Grounding e Percepção (Métodos Baseados em Coordenadas): Métodos que pedem ao modelo para gerar explicitamente coordenadas de caixas delimitadoras (bounding boxes) são frágeis. O modelo pode "saber" onde olhar internamente (nas camadas intermediárias de fusão visão-linguagem), mas gerar coordenadas incorretas nas camadas finais de decodificação devido ao desvio da atenção (attention drift).
Fragmentação da Atenção por Camadas (Métodos Baseados em Atenção): Métodos que extraem ROIs diretamente dos mapas de atenção do modelo enfrentam o problema de que o sinal de "onde olhar" está disperso por várias camadas. Escolher uma camada fixa para extração é instável, pois o pico de atenção varia drasticamente entre diferentes amostras.
Sensibilidade à Consulta (Query-Sensitivity): Extrair atenção baseada na pergunta completa ou em textos redundantes gera mapas de calor difusos e ruidosos. A presença de texto excessivo dilui o sinal de atenção focado na evidência visual necessária.

2. Metodologia: ConFoThinking

O ConFoThinking propõe um novo framework que desacopla o "o que procurar" do "onde procurar", consolidando o sinal de atenção em uma camada intermediária designada para garantir estabilidade.

O pipeline consiste em três componentes principais:

A. Geração de Cues Semânticos ()

Em vez de pedir ao modelo para gerar coordenadas numéricas (que são variáveis contínuas difíceis de prever com tokens discretos), o modelo é treinado para gerar um raciocínio visual guiado semanticamente.

O modelo produz um texto de raciocínio que inclui um segmento delimitado por <FOCUS>...</FOCUS>.
Este segmento contém uma descrição concisa e semântica do elemento visual a ser examinado (ex: "A grande letra centralizada perto do topo é o elemento que deve ser examinado").
Isso reduz o ruído semântico, focando a extração de atenção apenas nas palavras-chave relevantes.

B. Consolidação de Atenção em Camada Designada

Para resolver a fragmentação das camadas:

O sistema identifica uma camada intermediária designada (ex: Camada 22 para o Qwen3-VL-8B) onde a atenção é mais estável e concentrada.
Durante o treinamento, aplica-se uma Perda de Condensação de Atenção (Attention Condensation Loss - $L_{AC}$ ). Esta perda força o mapa de atenção (extraído usando os tokens <FOCUS> como consulta) a se concentrar fortemente dentro da caixa delimitadora de verdade (Ground Truth) especificamente naquela camada designada.
Isso transforma um sinal de atenção disperso em um mapa de calor estável e confiável em uma única camada.

C. Detector de Atenção (AttnDetector)

Um detector de objetos leve, baseado em Transformer (AttnDetector), é treinado para converter o mapa de calor de atenção refinado em coordenadas de caixa delimitadora.
O detector recebe o mapa de calor da camada designada e a máscara de padding, e regressa as coordenadas $(x, y, w, h)$ da ROI.
Isso elimina a necessidade de o MLLM principal gerar coordenadas diretamente, contornando o problema de precisão numérica.

D. Pipeline de Inferência

O MLLM gera o raciocínio com o segmento <FOCUS>.
O <FOCUS> é usado para extrair o mapa de atenção da camada designada.
O AttnDetector converte o mapa em uma caixa delimitadora.
A imagem é recortada e ampliada (zoom) nessa região.
O modelo base responde à pergunta utilizando a imagem original e a imagem ampliada.

3. Contribuições Chave

Estudo Empírico de Falhas: Identificação de três modos de falha em pipelines existentes: (1) desajuste entre percepção interna e saída de coordenadas; (2) dispersão do sinal de atenção entre camadas; (3) sensibilidade da extração de atenção à consulta textual.
Novo Framework (ConFoThinking): Uma abordagem que desacopla a busca semântica da localização espacial, consolidando a atenção em uma camada fixa e usando um detector separado para a conversão para coordenadas.
Desempenho SOTA: Demonstração de que é possível obter ROIs robustas sem depender da geração frágil de coordenadas pelo LLM, alcançando o estado da arte em múltiplos benchmarks.

4. Resultados Experimentais

O método foi avaliado em cinco benchmarks de VQA, cobrindo percepção de alta resolução, OCR e raciocínio geral: V, HR-Bench (4K/8K), InfoVQA e GQA*.

Desempenho: O ConFoThinking superou consistentemente tanto os MLLMs de código aberto base (como Qwen2.5-VL e Qwen3-VL) quanto pipelines existentes de "Thinking with Images" (como ZoomEye, ICoT, ViCrop).
- No benchmark V*, a versão baseada no Qwen3-VL-8B atingiu 94.8% de precisão, uma melhoria de +8.7 pontos sobre o modelo base.
- No HR-Bench 8K, alcançou 92.1%, superando o modelo base em +7.8 pontos.
Eficiência: Em comparação com métodos de busca iterativa como o ZoomEye, o ConFoThinking é significativamente mais rápido (aproximadamente 5x mais rápido), com um tempo de inferência de ~12s por amostra contra ~50s do ZoomEye, mantendo desempenho superior.
Análise de Ablação:
- A consolidação da atenção em uma única camada superou a agregação de vizinhança de camadas, provando que a "condensação" é crucial.
- O uso do token <FOCUS> para consulta de atenção superou o uso da pergunta completa ou de todo o texto gerado, confirmando a redução de ruído semântico.

5. Significado e Conclusão

O ConFoThinking oferece uma solução elegante para o gargalo da localização de evidências visuais em MLLMs. Ao evitar a geração direta de coordenadas (que é inerentemente imprecisa devido à natureza discreta dos tokens) e ao estabilizar o sinal de atenção em uma camada específica através de treinamento supervisionado, o método permite que os modelos "vejam" melhor antes de "pensar".

A abordagem demonstra que a extração de ROIs baseada em atenção, quando devidamente refinada e consolidada, é mais robusta e eficiente do que os métodos baseados em ferramentas de coordenadas ou busca iterativa. O código, checkpoints e dataset serão disponibilizados, facilitando a reprodutibilidade e o avanço em VQA de alta granularidade.