Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Este artigo apresenta o "Self-Aug", uma estratégia de decodificação sem treinamento para Modelos Visuais-Linguísticos de Grande Escala que combina uma estratégia de prompt de auto-aumento dependente da consulta e um algoritmo de limiar adaptativo baseado em entropia para mitigar alucinações e melhorar a consistência factual.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de IA muito inteligente, capaz de "ver" fotos e conversar sobre elas. Esse é o modelo de Visão-Linguagem (LVLM). O problema é que, às vezes, esse assistente é como um aluno que estudou muito, mas inventa fatos quando não tem certeza. Ele pode olhar para uma foto de um cachorro e dizer: "Ah, é um gato azul voando", porque a IA acha que "gato" e "azul" combinam bem, mesmo que a foto mostre claramente um cachorro marrom. Isso é chamado de alucinação.

O artigo que você leu apresenta uma nova técnica chamada Self-Aug para consertar isso, sem precisar reeducar o modelo (o que seria como ter que mandar o aluno para a escola de novo). Eles usam duas ideias principais, que podemos comparar com um jogo de detetive e um filtro de segurança.

1. O Detetive Inteligente (Seleção de Augmentação)

Antes de responder à pergunta, a IA precisa de um "truque" para testar se ela realmente entende a imagem. Métodos antigos faziam isso de forma aleatória, como jogar uma tinta preta na foto ou virá-la de cabeça para baixo, esperando que isso confundisse a IA e revelasse a verdade. Mas isso não funcionava bem para todas as perguntas.

A analogia do Detetive:
Imagine que você pergunta ao seu assistente: "Qual é a cor do casaco da pessoa?".

  • Método Antigo: O assistente pega a foto e, aleatoriamente, coloca um adesivo de "X" em cima do casaco. Se ele ainda acertar a cor, ótimo. Se errar, ele sabe que estava chutando. Mas e se a pergunta fosse "O cachorro está à esquerda ou à direita?"? Colar um "X" no casaco não ajuda a descobrir a posição. O método antigo era como tentar resolver um quebra-cabeça usando sempre a mesma peça, não importa qual seja a imagem.

  • O Self-Aug (Novo Método): Aqui, a IA usa sua própria inteligência para escolher o melhor truque. Ela pensa: "Espere, a pergunta é sobre a cor. Se eu inverter as cores da foto (transformar vermelho em verde, azul em laranja), a resposta certa vai sumir ou ficar errada. Isso vai me forçar a pensar com mais cuidado!".

    • Se a pergunta fosse sobre a posição, ela escolheria virar a foto de lado.
    • Se fosse sobre contar objetos, ela escolheria cobrir parte da imagem.

A IA age como um detetive que escolhe a ferramenta certa para o caso. Ela usa o que já sabe para criar uma versão "confusa" da imagem que seja perfeita para testar se a resposta original faz sentido.

2. O Filtro de Segurança (Truncamento Adaptativo)

Depois de ter a resposta normal e a resposta "confusa" (da imagem alterada), a IA precisa decidir qual palavra usar a seguir. Métodos antigos usavam um filtro rígido: "Se a chance de uma palavra ser correta for menor que 10%, jogue fora".

A analogia do Filtro de Segurança:
Imagine que você está em um aeroporto e o segurança (o filtro) decide quem pode entrar.

  • Método Antigo: O segurança tem uma régua fixa. Se a sua "credibilidade" for menor que 10 cm, você é barrado. O problema é que, em dias de muita neblina (quando a IA está insegura), essa régua fixa pode barrar pessoas inocentes que só estão um pouco nervosas, ou deixar passar criminosos que estão muito confiantes.
  • O Self-Aug (Novo Método): O segurança agora é um filtro inteligente que olha para a neblina.
    • Se a IA está muito confiante (o céu está limpo, a neblina é baixa), o filtro fica mais rigoroso e barra palavras estranhas.
    • Se a IA está insegura (está muito nebuloso), o filtro entende que é difícil ver tudo, então ele relaxa um pouco a régua para não barrar a resposta correta por engano, mas ainda assim bloqueia as absurdas.

Esse filtro se chama SAT (Truncamento Adaptativo de Esparsidade). Ele olha para a "confusão" das opções da IA. Se as opções estão muito misturadas (alta incerteza), ele ajusta o filtro para ser mais gentil. Se as opções estão claras (baixa incerteza), ele fica mais estrito.

O Resultado Final

Ao combinar o Detetive Inteligente (que escolhe o melhor truque visual para a pergunta específica) com o Filtro de Segurança Adaptativo (que ajusta as regras de acordo com o nível de confiança da IA), o modelo Self-Aug consegue:

  1. Reduzir as alucinações: Ele para de inventar coisas que não estão na foto.
  2. Ser mais preciso: As respostas ficam mais fiéis à realidade.
  3. Funcionar em qualquer modelo: Não precisa de treinamento extra, é como colocar um novo "óculos" no modelo existente.

Em resumo, o Self-Aug ensina a IA a pensar antes de falar, usando sua própria inteligência para criar testes de realidade e ajustando seu nível de cautela dependendo de quão confiante ela se sente. É como dar ao assistente um espelho mágico que mostra onde ele pode estar errado, antes que ele cometa o erro.