Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

O artigo apresenta o Vision-DeepResearch, um novo paradigma para Modelos de Linguagem Multimodal (MLLMs) que, por meio de treinamento supervisionado e por reforço, internaliza capacidades de pesquisa profunda multi-turno e multi-escala para superar ruído visual e resolver questões complexas, superando tanto modelos existentes quanto fluxos de trabalho baseados em fundações proprietárias de ponta.

Wenxuan Huang, Yu Zeng, Qiuchen Wang, Zhen Fang, Shaosheng Cao, Zheng Chu, Qingyu Yin, Shuang Chen, Zhenfei Yin, Lin Chen, Zehui Chen, Xu Tang, Yao Hu, Philip Torr, Feng Zhao, Wanli Ouyang

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente superinteligente, um "robô gênio" que consegue ver fotos e ler textos. O problema é que, quando você pede para ele responder perguntas complexas sobre uma foto (como "Quem é o treinador do time de basquete que está jogando contra o time do jogador da esquerda?"), ele muitas vezes falha. Por quê? Porque ele tenta adivinhar tudo de cabeça, sem consultar a internet, ou então faz uma busca muito superficial e rápida.

O artigo "Vision-DeepResearch" (Pesquisa Profunda com Visão) apresenta uma nova maneira de treinar esses robôs para que eles se tornem verdadeiros detetives, e não apenas adivinhos.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Detetive Desajeitado

Atualmente, os robôs inteligentes (chamados MLLMs) têm dois grandes defeitos quando tentam pesquisar na internet:

  • A Foto Inteira é Confusa: Imagine que você mostra uma foto de um estádio lotado para o robô e pergunta sobre um jogador específico. O robô tenta pesquisar a foto inteira na internet. É como tentar encontrar uma agulha em um palheiro jogando o palheiro inteiro na máquina de busca. O resultado? A máquina retorna lixo, anúncios e fotos erradas. O robô perde o foco.
  • Pouca Persistência: Se a primeira busca não der certo, o robô desiste rápido. Ele faz uma pergunta, recebe uma resposta ruim e diz "não sei". Na vida real, um bom investigador não desiste na primeira tentativa; ele muda a pergunta, foca em um detalhe, procura em outro lugar e tenta de novo.

2. A Solução: O Detetive "DeepResearch"

Os autores criaram um novo método chamado Vision-DeepResearch. Eles ensinaram o robô a agir como um investigador humano experiente.

A. O Poder do "Zoom" (Corte Multi-Escala)

Em vez de jogar a foto inteira na busca, o robô agora aprende a cortar a foto.

  • Analogia: Imagine que você está procurando o rosto de um amigo em uma foto de uma festa. Você não mostra a foto inteira para o segurança da porta. Você aponta para o rosto dele e diz: "É ele aqui".
  • O robô faz isso automaticamente: ele identifica onde está o objeto de interesse, corta essa parte da imagem e pesquisa apenas aquele pedaço. Isso aumenta muito a chance de encontrar a resposta certa (o "hit-rate").

B. A Dança da Investigação (Raciocínio Profundo)

O robô não faz apenas uma busca. Ele faz dezenas de passos.

  • Analogia: É como jogar xadrez. O robô pensa: "Se eu pesquisar 'João', não encontro nada. Talvez eu precise pesquisar 'O time de João'. Ah, encontrei o time! Agora, quem é o treinador desse time? Vou pesquisar isso."
  • O sistema permite que o robô faça centenas de interações com a internet, misturando buscas de imagens e textos, até montar o quebra-cabeça completo.

3. Como eles ensinaram isso? (O Treinamento)

Eles não apenas deram um manual de instruções. Eles criaram um simulador de realidade para treinar o robô.

  • Criando Casos Difíceis: Eles pegaram fotos reais e criaram perguntas que eram propositalmente difíceis e confusas (como esconder o nome do objeto e pedir para descobrir através de pistas indiretas).
  • O "Treino de Fogo": Eles deixaram o robô tentar resolver esses casos milhares de vezes. Quando ele acertava, ganhava um "ponto" (recompensa). Quando errava ou desistia cedo, não ganhava ponto.
  • Aprendizado por Reforço: É como treinar um cachorro. Se ele faz o truque certo, ganha um biscoito. Com o tempo, o robô aprendeu que a melhor estratégia é ser persistente, cortar a foto corretamente e fazer várias perguntas até achar a resposta.

4. O Resultado: O Campeão

O resultado desse treinamento é impressionante:

  • O novo robô (chamado Vision-DeepResearch) é muito melhor do que os modelos atuais, mesmo sendo menor e mais leve.
  • Ele consegue resolver problemas que os gigantes da tecnologia (como GPT-5 ou Gemini) têm dificuldade, porque ele sabe como pesquisar, não apenas o que sabe de cabeça.
  • Ele consegue lidar com o "ruído" do mundo real: fotos bagunçadas, informações faltando e perguntas confusas.

Resumo em uma frase:

O Vision-DeepResearch transformou o robô de um "aluno que tenta adivinhar a resposta" em um "detetive experiente" que sabe exatamente como cortar a foto, fazer as perguntas certas e não desistir até encontrar a verdade, mesmo que tenha que pesquisar 50 vezes.