Selective Training for Large Vision Language Models via Visual Information Gain

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas um pouco preguiçoso, a descrever uma foto.

Este aluno (que chamamos de Modelo de Visão e Linguagem) é incrível: ele sabe falar, escrever e tem um vocabulário enorme. O problema é que, quando você mostra uma foto para ele e faz uma pergunta, ele muitas vezes não olha a foto de verdade. Ele apenas "adivinha" a resposta baseada no que já aprendeu antes, usando o que chamamos de "viés de linguagem".

É como se você mostrasse uma foto de um gato laranja e perguntasse: "O que é isso?". O aluno, sem olhar, responde: "É um gato, porque a maioria das fotos que vi são de gatos". Se a foto fosse de um cachorro laranja, ele ainda diria "gato", porque o texto "laranja" e "foto" ativou uma memória antiga, ignorando a imagem real. Isso gera alucinações (inventar coisas que não estão lá).

Os pesquisadores deste paper, Seulbi Lee e Sangheum Hwang, criaram uma solução inteligente chamada Ganho de Informação Visual (VIG). Vamos entender como funciona com uma analogia simples:

1. O Problema: O Aluno que "Chuta"

Antes, os pesquisadores tentavam corrigir esse aluno de várias formas: mudando como ele respondia, filtrando os livros de estudo ou até mudando a estrutura da sala de aula. Mas ninguém conseguia medir exatamente em quais momentos o aluno estava olhando a foto e em quais momentos ele estava apenas "chutando" baseado no texto.

2. A Solução: O "Termômetro da Atenção" (VIG)

Os autores criaram uma métrica chamada VIG (Ganho de Informação Visual). Pense no VIG como um termômetro que mede o quanto a foto ajuda o aluno a responder.

Como funciona o teste: O sistema faz a mesma pergunta duas vezes para o aluno:
1. Mostrando a foto original.
2. Mostrando a mesma foto, mas borrada (de forma que ele não consiga ver nada, apenas o texto da pergunta).
A Medida: Se a resposta do aluno ficar muito mais precisa e segura quando ele vê a foto original (em comparação com a foto borrada), o VIG é alto. Isso significa que a foto foi essencial para a resposta.
Se a resposta for a mesma (ou pior) com a foto borrada, o VIG é baixo. Isso significa que o aluno estava apenas "chutando" baseado no texto, ignorando a imagem.

3. A Estratégia: "Treinamento Seletivo"

Aqui está a parte genial. Em vez de ensinar o aluno com todas as fotos e perguntas do mundo (o que é demorado e caro), eles usam o termômetro VIG para fazer uma triagem:

O que eles jogam fora: As perguntas onde o aluno não precisa da foto para responder (ex: "Qual é a cor do céu?" em uma foto de céu azul, onde ele já sabe a resposta de cor). Isso é "lixo" para o treinamento visual.
O que eles focam: As perguntas onde o aluno precisa olhar a foto para responder (ex: "Quantas pessoas estão sentadas no sofá?" ou "Qual é a cor da camisa do homem?").

Eles não param por aí. Eles vão até o nível das palavras (tokens).
Imagine que a resposta é: "O gato está sobre a mesa".

A palavra "o" e "está" são apenas gramática. O aluno sabe isso de cor. O VIG dessas palavras é baixo.
A palavra "gato", "sobre" e "mesa" dependem da imagem. O VIG dessas palavras é alto.

O novo método de treinamento ignora as palavras de baixo VIG (as que o aluno já sabe de cor) e foca a energia de aprendizado apenas nas palavras de alto VIG (as que exigem olhar a foto).

4. O Resultado: Mais Inteligente, Mais Rápido e Mais Barato

O resultado desse "treinamento seletivo" é impressionante:

Menos Trabalho: Eles conseguem treinar o modelo usando muito menos dados (apenas uma fração do que era necessário antes), porque estão focando apenas no que realmente importa.
Menos Alucinações: O modelo para de inventar coisas. Ele aprende a dizer: "Não vejo isso na foto" em vez de inventar um objeto que não existe.
Melhor Desempenho: Surpreendentemente, o modelo treinado dessa forma (com menos dados, mas dados melhores) fica mais inteligente do que os modelos treinados com todos os dados de forma bagunçada.

Resumo da Ópera

Pense nisso como se você fosse um professor. Em vez de fazer seu aluno ler 1.000 livros de história (muitos dos quais ele já sabe de cor), você pega os 100 livros que contêm novas informações que ele precisa aprender e foca apenas neles.

O VIG é a ferramenta que diz ao professor: "Ei, nessa página, o aluno precisa olhar a foto para entender. Nessa outra, ele só está decorando o texto. Vamos focar na primeira!".

Com isso, o modelo de Inteligência Artificial aprende a ver de verdade, em vez de apenas "falar bonito" baseado em estereótipos.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Treinamento Seletivo para Grandes Modelos Visuais-Linguísticos via Ganho de Informação Visual

1. O Problema: Viés Linguístico e Alucinação em LVLMs

Os Grandes Modelos Visuais-Linguísticos (LVLMs) alcançaram avanços notáveis em tarefas multimodais. No entanto, eles sofrem de um problema fundamental conhecido como viés linguístico (ou language bias).

Natureza do Problema: Os modelos tendem a depender excessivamente de priores textuais e conhecimento linguístico prévio, ignorando evidências visuais quando disponíveis. Isso leva a:
- Cegueira Visual: O modelo age como se fosse apenas um modelo de texto, ignorando o conteúdo da imagem.
- Alucinações: O modelo descreve objetos, atributos ou relações que não existem na imagem, baseando-se apenas em estatísticas de linguagem.
Limitações das Soluções Atuais: Métodos anteriores focam em estratégias de decodificação (sem treinamento), modificações arquiteturais ou curadoria de dados. Contudo, eles carecem de uma medida quantitativa para determinar quais amostras de treinamento ou tokens específicos realmente se beneficiam da entrada visual. Como resultado, o treinamento trata amostras e tokens visualmente irrelevantes (que podem ser respondidos apenas com texto) da mesma forma que os que exigem compreensão visual profunda.

2. Metodologia: Ganho de Informação Visual (VIG)

Os autores propõem uma abordagem centrada nos dados, introduzindo uma nova métrica chamada Visual Information Gain (VIG) e um esquema de treinamento seletivo baseado nela.

A. Definição do VIG
O VIG é uma métrica baseada em perplexidade que quantifica a redução na incerteza de previsão do modelo quando a informação visual é incluída.

Cálculo: É definido como o logaritmo da razão entre a perplexidade (PPL) da resposta dada apenas a pergunta ( $Q$ ) e a perplexidade dada a pergunta e a imagem ( $Q, I$ ):
$VIG = \log \left( \frac{PPL(A | Q)}{PPL(A | Q, I)} \right)$
Interpretação:
- VIG Alto (Positivo): A imagem reduz significativamente a incerteza do modelo. A amostra/token é fortemente fundamentado visualmente (ex: cores, relações espaciais, atributos específicos).
- VIG Baixo ou Negativo: A imagem não ajuda ou até aumenta a incerteza (ex: tokens de estrutura gramatical, artigos, ou perguntas respondidas por senso comum).
Decomposição: O VIG pode ser decomposto ao nível do token, permitindo identificar quais palavras específicas na resposta dependem da imagem.

B. Esquema de Treinamento Seletivo Guiado por VIG
Utilizando o VIG, os autores propõem um treinamento seletivo em duas etapas para filtrar dados de instrução multimodal:

Seleção de Amostras (Sample-Level): As amostras de treinamento são classificadas pelo seu VIG médio. Apenas as top $p\%$ (amostras com maior ganho visual) são mantidas para treinamento.
Seleção de Tokens (Token-Level): Dentro das amostras selecionadas, apenas os tokens individuais com VIG acima de um limiar ( $\tau_p$ ) contribuem para o cálculo da perda (loss). Tokens com baixo ganho visual (estruturais ou baseados em texto) são ignorados durante o backpropagation.

Objetivo: Focar o esforço de otimização exclusivamente nas partes dos dados que exigem e fornecem evidência visual, eliminando o "ruído" de dados que o modelo pode aprender apenas com texto.

3. Contribuições Principais

Introdução do VIG: Uma métrica model-agnostic e decomponível que mede a contribuição visual em nível de amostra e token, permitindo uma análise granular da dependência visual.
Validação Empírica: Demonstração de que o VIG correlaciona-se com a dependência de modalidade em benchmarks (ex: benchmarks de legendagem como COCO têm VIG alto, enquanto benchmarks de raciocínio baseado em texto como GQA têm VIG baixo/negativo). O VIG identifica corretamente tokens visualmente fundamentados (cores, posições) versus tokens sintáticos.
Treinamento Seletivo Eficiente: Um método que melhora a fundamentação visual e reduz alucinações com supervisão drasticamente reduzida. O modelo é treinado apenas em uma fração dos tokens e amostras originais, mas com maior qualidade visual.

4. Resultados Experimentais

Os experimentos foram realizados em modelos como LLaVA-1.5 (7B e 13B) e ShareGPT4V (7B).

Eficiência de Dados:
- O modelo LLaVA-1.5 7B treinado com VIG (usando apenas ~38M de tokens ativos, uma redução de 34% no número de tokens e 13% nas amostras) superou o modelo base treinado com dados completos em todos os benchmarks de compreensão visual e avaliação de alucinação.
- Para o LLaVA-1.5 13B, a redução foi ainda mais agressiva (apenas ~12M de tokens ativos, redução de 79%), com ganhos de desempenho consistentes.
Desempenho em Benchmarks:
- Compreensão Visual: Melhoria em LLaVAW, MMVet, MMBench e DocVQA.
- Redução de Alucinação: Redução significativa nas métricas de alucinação (CHAIR, MMHal) e melhoria no POPE (avaliação de objetos).
Comparação com Sota (State-of-the-Art):
- O método VIG superou ou foi competitivo com métodos sem treinamento (como VCD, PAI) e métodos baseados em treinamento (como LACING), sem exigir modificações na arquitetura ou sobrecarga na inferência.
- O método mostrou-se ortogonal, ou seja, combinado com outras técnicas (ex: VIG + LACING), produziu os melhores resultados absolutos.
Análise de Atenção:
- Modelos treinados com VIG alocaram uma fração significativamente maior de atenção aos tokens visuais, especialmente nas camadas intermediárias da rede, confirmando que o modelo aprendeu a confiar mais na imagem.
- O modelo tornou-se mais robusto a "cegueira em relação ao texto" (blind faith in text), mantendo alta precisão mesmo quando o texto de entrada era corrompido com descrições conflitantes.

5. Significado e Conclusão

Este trabalho oferece uma mudança de paradigma na forma como os LVLMs são treinados:

Qualidade sobre Quantidade: Demonstra que a quantidade massiva de dados de instrução multimodal não é benéfica se contiver muitos exemplos fracamente fundamentados visualmente.
Diagnóstico Quantitativo: O VIG fornece uma ferramenta prática para diagnosticar e quantificar a dependência visual em qualquer conjunto de dados.
Eficiência Computacional: Ao focar apenas nos dados visualmente informativos, é possível treinar modelos mais robustos e com menos alucinações usando uma fração do custo computacional de treinamento tradicional.

Em suma, a proposta de Visual Information Gain permite construir LVLMs que realmente "enxergam" e utilizam a evidência visual, mitigando o viés linguístico através de um treinamento seletivo e inteligente dos dados.

Selective Training for Large Vision Language Models via Visual Information Gain

1. O Problema: O Aluno que "Chuta"

2. A Solução: O "Termômetro da Atenção" (VIG)

3. A Estratégia: "Treinamento Seletivo"

4. O Resultado: Mais Inteligente, Mais Rápido e Mais Barato

Resumo da Ópera

Resumo Técnico: Treinamento Seletivo para Grandes Modelos Visuais-Linguísticos via Ganho de Informação Visual

1. O Problema: Viés Linguístico e Alucinação em LVLMs

2. Metodologia: Ganho de Informação Visual (VIG)

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Multi-Agent Home Energy Management Assistant

ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Fundamentals of Computing Continuous Dynamic Time Warping in 2D under Different Norms

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

Efficient Model Repository for Entity Resolution: Construction, Search, and Integration