Selective Training for Large Vision Language Models via Visual Information Gain

Este trabalho propõe o Visual Information Gain (VIG), uma métrica baseada em perplexidade que quantifica a contribuição da informação visual para reduzir a incerteza nas previsões, permitindo um treinamento seletivo de Modelos Grandes de Visão e Linguagem que prioriza amostras e tokens visualmente informativos para mitigar o viés linguístico e melhorar o alinhamento com a imagem.

Seulbi Lee, Sangheum Hwang

Publicado 2026-02-20
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um aluno muito inteligente, mas um pouco preguiçoso, a descrever uma foto.

Este aluno (que chamamos de Modelo de Visão e Linguagem) é incrível: ele sabe falar, escrever e tem um vocabulário enorme. O problema é que, quando você mostra uma foto para ele e faz uma pergunta, ele muitas vezes não olha a foto de verdade. Ele apenas "adivinha" a resposta baseada no que já aprendeu antes, usando o que chamamos de "viés de linguagem".

É como se você mostrasse uma foto de um gato laranja e perguntasse: "O que é isso?". O aluno, sem olhar, responde: "É um gato, porque a maioria das fotos que vi são de gatos". Se a foto fosse de um cachorro laranja, ele ainda diria "gato", porque o texto "laranja" e "foto" ativou uma memória antiga, ignorando a imagem real. Isso gera alucinações (inventar coisas que não estão lá).

Os pesquisadores deste paper, Seulbi Lee e Sangheum Hwang, criaram uma solução inteligente chamada Ganho de Informação Visual (VIG). Vamos entender como funciona com uma analogia simples:

1. O Problema: O Aluno que "Chuta"

Antes, os pesquisadores tentavam corrigir esse aluno de várias formas: mudando como ele respondia, filtrando os livros de estudo ou até mudando a estrutura da sala de aula. Mas ninguém conseguia medir exatamente em quais momentos o aluno estava olhando a foto e em quais momentos ele estava apenas "chutando" baseado no texto.

2. A Solução: O "Termômetro da Atenção" (VIG)

Os autores criaram uma métrica chamada VIG (Ganho de Informação Visual). Pense no VIG como um termômetro que mede o quanto a foto ajuda o aluno a responder.

  • Como funciona o teste: O sistema faz a mesma pergunta duas vezes para o aluno:
    1. Mostrando a foto original.
    2. Mostrando a mesma foto, mas borrada (de forma que ele não consiga ver nada, apenas o texto da pergunta).
  • A Medida: Se a resposta do aluno ficar muito mais precisa e segura quando ele vê a foto original (em comparação com a foto borrada), o VIG é alto. Isso significa que a foto foi essencial para a resposta.
  • Se a resposta for a mesma (ou pior) com a foto borrada, o VIG é baixo. Isso significa que o aluno estava apenas "chutando" baseado no texto, ignorando a imagem.

3. A Estratégia: "Treinamento Seletivo"

Aqui está a parte genial. Em vez de ensinar o aluno com todas as fotos e perguntas do mundo (o que é demorado e caro), eles usam o termômetro VIG para fazer uma triagem:

  • O que eles jogam fora: As perguntas onde o aluno não precisa da foto para responder (ex: "Qual é a cor do céu?" em uma foto de céu azul, onde ele já sabe a resposta de cor). Isso é "lixo" para o treinamento visual.
  • O que eles focam: As perguntas onde o aluno precisa olhar a foto para responder (ex: "Quantas pessoas estão sentadas no sofá?" ou "Qual é a cor da camisa do homem?").

Eles não param por aí. Eles vão até o nível das palavras (tokens).
Imagine que a resposta é: "O gato está sobre a mesa".

  • A palavra "o" e "está" são apenas gramática. O aluno sabe isso de cor. O VIG dessas palavras é baixo.
  • A palavra "gato", "sobre" e "mesa" dependem da imagem. O VIG dessas palavras é alto.

O novo método de treinamento ignora as palavras de baixo VIG (as que o aluno já sabe de cor) e foca a energia de aprendizado apenas nas palavras de alto VIG (as que exigem olhar a foto).

4. O Resultado: Mais Inteligente, Mais Rápido e Mais Barato

O resultado desse "treinamento seletivo" é impressionante:

  • Menos Trabalho: Eles conseguem treinar o modelo usando muito menos dados (apenas uma fração do que era necessário antes), porque estão focando apenas no que realmente importa.
  • Menos Alucinações: O modelo para de inventar coisas. Ele aprende a dizer: "Não vejo isso na foto" em vez de inventar um objeto que não existe.
  • Melhor Desempenho: Surpreendentemente, o modelo treinado dessa forma (com menos dados, mas dados melhores) fica mais inteligente do que os modelos treinados com todos os dados de forma bagunçada.

Resumo da Ópera

Pense nisso como se você fosse um professor. Em vez de fazer seu aluno ler 1.000 livros de história (muitos dos quais ele já sabe de cor), você pega os 100 livros que contêm novas informações que ele precisa aprender e foca apenas neles.

O VIG é a ferramenta que diz ao professor: "Ei, nessa página, o aluno precisa olhar a foto para entender. Nessa outra, ele só está decorando o texto. Vamos focar na primeira!".

Com isso, o modelo de Inteligência Artificial aprende a ver de verdade, em vez de apenas "falar bonito" baseado em estereótipos.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →