Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Este artigo apresenta o VDR-Bench, um novo benchmark de 2.000 instâncias projetado para superar as limitações de avaliações anteriores ao focar em cenários realistas de pesquisa visual e textual para Modelos de Linguagem Multimodal, além de propor um fluxo de trabalho de busca com recortes múltiplos que melhora significativamente o desempenho desses sistemas.

Yu Zeng, Wenxuan Huang, Zhen Fang, Shuang Chen, Yufan Shen, Yishuo Cai, Xiaoman Wang, Zhenfei Yin, Lin Chen, Zehui Chen, Shiting Huang, Yiming Zhao, Xu Tang, Yao Hu, Philip Torr, Wanli Ouyang, Shaosheng Cao

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive muito inteligente, chamado MLLM (um modelo de linguagem multimodal). Ele é ótimo em ler livros e conversar, e agora ele aprendeu a "olhar" para fotos. A ideia é que esse detetive possa resolver mistérios complexos olhando para uma imagem e pesquisando na internet ao mesmo tempo.

O problema é que os testes atuais para ver se esse detetive é bom estão "viciados". É como se você estivesse testando a habilidade de um jogador de xadrez, mas permitindo que ele leia a resposta escrita no tabuleiro antes de fazer a jogada.

Aqui está o resumo do artigo "Vision-DeepResearch Benchmark" (VDR-Bench) em linguagem simples, usando analogias:

1. O Problema: Os Testes Antigos eram "Trampas"

Os testes antigos tinham dois defeitos graves:

  • O Detetive não precisava olhar a foto: Muitas perguntas podiam ser respondidas apenas lendo o texto ou usando o que o detetive já sabia de cor (memória).
    • Analogia: Imagine que você pergunta: "Qual time joga no estádio com o nome 'Signal Iduna Park'?" O detetive não precisa olhar a foto do estádio; ele apenas sabe a resposta porque já leu sobre isso em um livro. O teste achava que ele era um ótimo detetive visual, mas ele só estava usando a memória.
  • A busca era "mágica" demais: Quando o detetive precisava procurar a imagem na internet, o teste era fácil demais. Se você mostrava a foto inteira, o Google encontrava a mesma foto exata instantaneamente.
    • Analogia: É como se você estivesse procurando uma agulha no palheiro, mas a agulha tivesse um brilho neon e estivesse em cima da mesa. Na vida real, a agulha está escondida, suja e misturada com outras coisas. Os testes antigos não simulavam essa dificuldade.

2. A Solução: O Novo Teste "VDR-Bench"

Os autores criaram um novo campo de provas chamado VDR-Bench (o "Olimpo dos Detetives Visuais"). Eles construíram 2.000 novos casos para testar a inteligência real.

Como eles fizeram isso?

  • Corte e Procure (A Técnica do "Zoom"): Em vez de mostrar a foto inteira, eles cortaram pedaços pequenos e específicos da imagem (como um recorte de jornal) e pediram para o detetive procurar o que é aquele pedaço na internet.
    • Analogia: Em vez de mostrar a foto de um carro inteiro e perguntar "qual é a marca?", eles mostram apenas o emblema no capô e perguntam "quem fez isso?". Isso força o detetive a olhar de perto e pesquisar, não apenas chutar.
  • Perguntas em Camadas (Quebra-Cabeças): As perguntas não são diretas. Elas exigem várias etapas de raciocínio.
    • Analogia: Não perguntam "Quem é esse ator?". Perguntam: "Esse ator viveu em uma cidade que tem um rio chamado X. Qual é o nome do filme onde ele trabalhou com um diretor que nasceu no ano Y?". O detetive precisa conectar a foto, a cidade, o rio e o ano para chegar à resposta.

3. O Que Eles Descobriram?

Ao testar os melhores "detetives" (modelos de IA) nesse novo campo de provas, eles viram coisas interessantes:

  • O Efeito "Preguiça Inteligente": Os modelos mais inteligentes (que sabem muita coisa de cor) tendiam a ser "preguiçosos". Eles achavam que podiam responder sem pesquisar, usando apenas o que já sabiam. Como as perguntas eram difíceis e exigiam verificação visual, eles falhavam.
  • A Estratégia do "Zoom" Funciona: Eles criaram um método simples chamado "Pesquisa com Cortes Múltiplos". Em vez de tentar achar a resposta de uma vez só, o modelo corta a imagem em várias partes, pesquisa cada pedaço e junta as informações.
    • Resultado: Isso funcionou muito bem! Mesmo modelos menores, quando usavam essa estratégia de "cortar e pesquisar", ficaram muito melhores do que os gigantes que tentavam adivinhar.

4. A Lição Final

Para criar um verdadeiro "Super Detetive" que possa investigar o mundo real (olhando fotos de crimes, produtos, lugares, etc.), não basta apenas treinar o cérebro do modelo para saber mais coisas.

É preciso ensinar o modelo a:

  1. Não confiar apenas na memória.
  2. Olhar de perto (fazer zoom/cortar a imagem).
  3. Pesquisar em etapas (como um investigador que coleta pistas uma por uma).

O artigo diz: "Se você quer que sua IA seja boa em investigar o mundo real, pare de dar a ela testes fáceis e ensine-a a usar a lupa e o mapa, não apenas a memória."