VIRTUE: Visual-Interactive Text-Image Universal Embedder

O artigo apresenta o VIRTUE, um novo modelo de incorporação universal texto-imagem que integra interações visuais (como pontos e máscaras) para melhorar a precisão na localização de regiões de interesse e o aprendizado de informações em nível de entidade, alcançando desempenho superior em benchmarks universais e em uma nova tarefa de recuperação de legendas baseada em segmentação.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu, Shusuke Takahashi, Yuki Mitsufuji

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um arquivista superinteligente (um modelo de IA) que organiza milhões de fotos e textos. O trabalho dele é entender o que está na foto e encontrar a descrição perfeita, ou vice-versa.

Até agora, esse arquivista funcionava de uma maneira um pouco "cega" e geral. Se você pedisse para ele encontrar "um cachorro", ele olhava para a foto inteira e tentava adivinhar qual era o cachorro. Se a foto tivesse três cachorros e um gato, ele ficava confuso ou escolhia o errado.

Aqui entra o VIRTUE, a nova estrela apresentada neste artigo. Vamos explicar como ele funciona usando algumas analogias simples:

1. O Problema: O Arquivista que não entende "aponte aqui"

Imagine que você está em uma sala cheia de pessoas e diz ao arquivista: "Quero a foto daquela pessoa de camisa vermelha".

  • Os modelos antigos: Eles olham para a sala inteira e dizem: "Ah, tem muita gente de vermelho aqui, vou chutar uma". Eles não conseguem focar no que você quer especificamente.
  • O problema: Eles só entendem texto. Se você não descrever tudo perfeitamente em palavras, eles falham.

2. A Solução: O VIRTUE com "Lupa Mágica"

O VIRTUE é como dar ao arquivista uma lupa mágica e a capacidade de usar o dedo para apontar.

  • A Lupa (O Modelo de Segmentação): O VIRTUE usa uma ferramenta chamada "SAM2" (que é como um especialista em recortar imagens). Em vez de olhar a foto inteira de uma vez só, ele permite que você coloque um quadradinho (bounding box), um ponto ou um recorte (máscara) em cima do objeto que você quer.
  • O Cérebro (O Modelo de Linguagem): Depois de focar no objeto com a "lupa", o cérebro do VIRTUE olha para o objeto e para o cenário ao redor.
    • Exemplo: Se você apontar para um cachorro, o VIRTUE não vê apenas "cachorro". Ele vê "um cachorro sobre um tapete em uma sala de estar". Ele entende a relação entre o objeto e o mundo ao redor.

3. A Grande Inovação: O "Jogo de Detetive" (SCaR)

Para treinar esse novo arquivista, os criadores não usaram apenas fotos e textos normais. Eles criaram um campo de treinamento gigante chamado SCaR (com 1 milhão de exemplos).

Pense no SCaR como um jogo de "Onde está o erro?":

  • Eles mostram uma foto de um cachorro na praia.
  • A resposta certa é: "Cachorro na areia, com o mar ao fundo".
  • As respostas erradas (distratores) são criadas por uma IA superinteligente (GPT-4V) para serem muito difíceis, como:
    • "Cachorro na areia, mas em um parque" (trocou o cenário).
    • "Cachorro no sofá com o mar ao fundo" (trocou a relação).
    • "Gato na areia com o mar ao fundo" (trocou o objeto).

O VIRTUE foi treinado para não cair nessas armadilhas. Ele precisa olhar para o ponto que você marcou e entender exatamente o que está acontecendo ali, ignorando o resto da foto se necessário, mas mantendo o contexto.

4. Por que isso é importante? (A Analogia do Restaurante)

Imagine que você vai a um restaurante e pede: "Quero o prato que tem o peixe".

  • Modelo Antigo: O garçom traz uma bandeja com 10 pratos diferentes porque a foto do cardápio tinha vários peixes. Você tem que escolher.
  • VIRTUE: Você aponta para o cardápio e diz: "Quero o prato do peixe que está ao lado do limão". O garçom (VIRTUE) vai direto para o prato exato, entendendo que o limão é parte da história, mesmo que a foto inteira tenha outras coisas.

5. Os Resultados: O VIRTUE é o Campeão

O artigo mostra que o VIRTUE venceu todos os outros modelos em testes de:

  • Entendimento Geral: Ele é ótimo em tarefas comuns (como encontrar fotos por texto).
  • Interação Visual: Ele é o primeiro a ser realmente bom em "apontar e buscar".

Em resumo:
O VIRTUE é como transformar um assistente de pesquisa que só lê descrições em um assistente que pode ver, apontar e entender. Ele combina a capacidade de "recortar" partes da imagem (como um editor de fotos) com a inteligência de entender a história completa da cena. Isso permite que humanos interajam com as fotos de forma muito mais natural e precisa, como se estivessem conversando com alguém que realmente vê o que você vê.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →