Each language version is independently generated for its own context, not a direct translation.
Imagine que você tem um assistente superinteligente, chamado LVLM (um modelo de linguagem grande com visão), que consegue "ver" fotos e conversar sobre elas. O problema é que, às vezes, esse assistente é muito confiante, mas está totalmente errado. Ele pode olhar para uma foto de um gato e dizer, com total certeza: "Isso é um cachorro comendo pizza", porque na internet ele leu tantas vezes que "cachorro come pizza" que o cérebro dele assumiu isso como verdade, ignorando a foto real.
Esse fenômeno é chamado de alucinação.
Aqui entra o grande problema: como fazemos esse assistente perceber que ele está mentindo (ou alucinando) antes de entregar a resposta? Métodos antigos tentavam perguntar ao próprio assistente: "Você tem certeza?". Mas, como o assistente é muito bom em falar, ele diz "Sim, tenho 100% de certeza!", mesmo quando está olhando para a foto errada. Ele confia mais no que "ouviu" na internet (o conhecimento de linguagem) do que no que está "vendo" na foto.
A Solução: VAUQ (O "Detetive da Realidade Visual")
Os autores criaram uma nova ferramenta chamada VAUQ. Pense nela como um teste de realidade que o assistente faz consigo mesmo, sem precisar de um professor externo.
A ideia central é simples: "Se a resposta depende da foto, tirar a foto deve deixar o assistente confuso."
O VAUQ funciona em duas etapas principais, que podemos comparar a um jogo de "Esconde-Esconde":
1. A Pontuação de Informação da Imagem (O "O que a foto me diz?")
O VAUQ pergunta: "Quanto a sua resposta muda se eu não te mostrar a foto?"
- Se o assistente responde "É um gato" e, ao esconder a foto, ele continua dizendo "É um gato" (porque leu isso em um livro), a pontuação de confiança visual é baixa. Ele está alucinando.
- Se, ao esconder a foto, o assistente fica confuso e diz "Não tenho ideia, pode ser um gato ou um cachorro", isso significa que a foto era essencial para a resposta. A confiança visual é alta.
2. O Mascaramento da "Zona Central" (O "Foco no Importante")
Aqui está o truque genial. Às vezes, o assistente olha para a foto inteira, mas só presta atenção no fundo (como uma parede branca) e ignora o objeto principal.
O VAUQ usa uma "lente mágica" (baseada em onde o assistente olha mais intensamente) para cobrir com um adesivo preto as partes mais importantes da foto (o "núcleo" da imagem).
- Analogia: Imagine que você está tentando adivinhar o que tem dentro de uma caixa fechada. O VAUQ abre uma pequena janela na caixa. Se você consegue ver o que tem lá e adivinhar corretamente, ótimo. Mas o VAUQ vai cobrir essa janela com um adesivo.
- Se, ao cobrir a janela, você ainda consegue adivinhar o que tem dentro com certeza, é porque você estava chutando (alucinando).
- Se, ao cobrir a janela, você entra em pânico e não sabe mais o que é, é porque você estava realmente usando a visão para responder.
O Resultado Final
O VAUQ combina essas duas informações para dar uma nota de "Veracidade":
- Nota Baixa (Boa): O assistente ficou confuso quando a parte importante da foto foi coberta. Isso significa que ele estava realmente olhando para a foto. A resposta é provável de estar correta.
- Nota Alta (Ruim): O assistente continuou confiante mesmo com a parte importante da foto coberta. Isso significa que ele estava apenas "chutando" baseado no que aprendeu na internet, ignorando a realidade visual. A resposta provavelmente é uma alucinação.
Por que isso é incrível?
- Não precisa de treino: O VAUQ não precisa ensinar o assistente de novo. Ele apenas usa o assistente que já existe, como um teste de autoavaliação.
- É rápido: Diferente de outros métodos que precisam gerar 10 respostas diferentes para ver qual é a melhor, o VAUQ faz isso quase instantaneamente.
- Funciona em qualquer lugar: Funciona bem em perguntas simples, complexas e em diferentes tipos de modelos de inteligência artificial.
Em resumo: O VAUQ é como um "teste de realidade" que força a inteligência artificial a admitir: "Ei, se eu não olhar para a foto, eu não sei a resposta!". Isso nos ajuda a confiar mais nas respostas que vêm da visão e menos nas que vêm apenas da imaginação da máquina.
Receba artigos como este na sua caixa de entrada
Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.