MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

O artigo apresenta o MM-DeepResearch, um agente de pesquisa multimodal que supera desafios como a escassez de dados e os custos de treinamento ao combinar a geração de dados via Hyper-Search, a otimização de especialistas em ferramentas de busca com DR-TTS e um mecanismo de aprendizado por reforço offline, resultando em um sistema capaz de raciocínio explícito e síntese de informações cruzadas.

Huanjin Yao, Qixiang Yin, Min Yang, Ziwang Zhao, Yibo Wang, Haotian Luo, Jingyi Zhang, Jiaxing Huang

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive muito inteligente, mas que, até agora, só conseguia resolver crimes olhando para uma única foto e usando o que já sabia de cabeça. Se a resposta não estivesse na foto ou na memória dele, ele ficava perdido.

O papel "MM-DeepResearch" apresenta uma evolução desse detetive. Eles criaram um novo agente (um assistente de IA) que não apenas "pensa", mas sabe pesquisar ativamente na internet, misturando imagens e textos, como um investigador de verdade que vai à biblioteca, tira fotos de documentos e pergunta a especialistas.

Aqui está a explicação simples de como eles fizeram isso, usando analogias do dia a dia:

1. O Problema: O Detetive sem Ferramentas

Antes, os modelos de IA eram como estudantes que estudaram muito, mas nunca saíram da sala de aula.

  • Falta de dados: Não havia muitos exemplos de perguntas que exigissem "ir à internet" para responder (especialmente misturando fotos e textos).
  • Falta de roteiro: Ninguém sabia ensinar o modelo como pesquisar passo a passo (ex: "primeiro pesquise a foto, depois leia o site, depois pergunte ao especialista").
  • Custo proibitivo: Ensinar um modelo a pesquisar na internet real é como pagar uma taxa de entrada cara em um parque de diversões a cada vez que ele tenta uma montanha-russa. É muito caro para testar e errar.

2. A Solução: Três Grandes Inovações

Para criar o MM-DeepResearch, os autores usaram três truques de mágica:

A. Hyper-Search: O "Mapa do Tesouro"

Imagine que você quer criar um jogo de caça ao tesouro, mas não tem os mapas.

  • O que fizeram: Eles criaram um sistema chamado Hyper-Search. Pense nele como um "teia de aranha" gigante (um hipergrafo) que conecta fotos a textos na internet.
  • A analogia: É como se eles pegassem uma foto de um castelo, e automaticamente dessem um "pulo" para encontrar o texto sobre quem o construiu, depois um "pulo" para encontrar uma foto de outro castelo parecido, e assim por diante.
  • Resultado: Eles geraram milhares de perguntas difíceis que obrigam o modelo a usar essa teia de conexões para responder. É como criar um manual de instruções para o detetive aprender a investigar.

B. DR-TTS: A "Equipe de Especialistas"

Imagine que você precisa montar um time para resolver um crime complexo. Em vez de ter um único detetive generalista que é mediano em tudo, você contrata especialistas.

  • O que fizeram: Eles criaram o DR-TTS. Primeiro, eles dividiram o trabalho: um especialista só sabe usar a ferramenta de "pesquisa por imagem", outro só sabe usar "pesquisa por texto", outro só sabe "ler documentos".
  • A analogia: É como ter uma equipe de cirurgiões onde cada um é mestre em uma parte do corpo. Depois, eles juntam esses especialistas em uma "sala de guerra" (uma árvore de busca) para simular milhares de cenários de investigação. Eles testam: "E se o especialista de imagens tentar isso? E se o de textos tentar aquilo?".
  • Resultado: Eles criaram os melhores "roteiros" de investigação possíveis para ensinar o modelo principal.

C. O Motor de Busca Offline: O "Simulador de Voo"

Aqui está a parte que economizou milhões de dólares.

  • O problema: Treinar com a internet real (APIs online) é como voar um avião real para aprender a pilotar: é perigoso e custa uma fortuna em combustível.
  • A solução: Eles construíram um Motor de Busca Offline. É como um simulador de voo ultra-realista. Eles baixaram uma "biblioteca" gigante de textos e imagens antes de começar.
  • A analogia: Quando o modelo precisa pesquisar, ele não vai para a internet real. Ele vai para essa biblioteca interna. É instantâneo e gratuito. Isso permitiu que eles fizessem milhões de tentativas de treinamento sem gastar um centavo em taxas de internet.

3. O Resultado: O Super-Detetive

Com esses três ingredientes, eles treinaram o MM-DeepResearch.

  • Como ele funciona: Você mostra uma foto (ex: um prédio estranho) e faz uma pergunta. O modelo pensa: "Não sei quem construiu isso. Vou usar minha ferramenta de busca por imagem para identificar o prédio. Agora que sei o nome, vou usar minha ferramenta de texto para ler a história dele. Agora vou cruzar as informações e te dar a resposta."
  • Desempenho: Nos testes, esse novo agente superou outros modelos famosos (como o GPT-5 e o Qwen) em tarefas que exigem pesquisa profunda, mesmo sendo treinado de forma mais barata e inteligente.

Resumo Final

Pense no MM-DeepResearch como a diferença entre um aluno que decorou a enciclopédia e um pesquisador profissional que sabe usar a biblioteca, o laboratório e a internet para descobrir coisas novas.

Eles não apenas criaram um modelo mais inteligente; eles criaram um método mais barato e eficiente para ensinar qualquer modelo a ser um pesquisador, usando mapas de conexões (Hyper-Search), times de especialistas (DR-TTS) e um simulador de treinamento (Busca Offline).