MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um detetive muito inteligente, mas que, até agora, só conseguia resolver crimes olhando para uma única foto e usando o que já sabia de cabeça. Se a resposta não estivesse na foto ou na memória dele, ele ficava perdido.

O papel "MM-DeepResearch" apresenta uma evolução desse detetive. Eles criaram um novo agente (um assistente de IA) que não apenas "pensa", mas sabe pesquisar ativamente na internet, misturando imagens e textos, como um investigador de verdade que vai à biblioteca, tira fotos de documentos e pergunta a especialistas.

Aqui está a explicação simples de como eles fizeram isso, usando analogias do dia a dia:

1. O Problema: O Detetive sem Ferramentas

Antes, os modelos de IA eram como estudantes que estudaram muito, mas nunca saíram da sala de aula.

Falta de dados: Não havia muitos exemplos de perguntas que exigissem "ir à internet" para responder (especialmente misturando fotos e textos).
Falta de roteiro: Ninguém sabia ensinar o modelo como pesquisar passo a passo (ex: "primeiro pesquise a foto, depois leia o site, depois pergunte ao especialista").
Custo proibitivo: Ensinar um modelo a pesquisar na internet real é como pagar uma taxa de entrada cara em um parque de diversões a cada vez que ele tenta uma montanha-russa. É muito caro para testar e errar.

2. A Solução: Três Grandes Inovações

Para criar o MM-DeepResearch, os autores usaram três truques de mágica:

A. Hyper-Search: O "Mapa do Tesouro"

Imagine que você quer criar um jogo de caça ao tesouro, mas não tem os mapas.

O que fizeram: Eles criaram um sistema chamado Hyper-Search. Pense nele como um "teia de aranha" gigante (um hipergrafo) que conecta fotos a textos na internet.
A analogia: É como se eles pegassem uma foto de um castelo, e automaticamente dessem um "pulo" para encontrar o texto sobre quem o construiu, depois um "pulo" para encontrar uma foto de outro castelo parecido, e assim por diante.
Resultado: Eles geraram milhares de perguntas difíceis que obrigam o modelo a usar essa teia de conexões para responder. É como criar um manual de instruções para o detetive aprender a investigar.

B. DR-TTS: A "Equipe de Especialistas"

Imagine que você precisa montar um time para resolver um crime complexo. Em vez de ter um único detetive generalista que é mediano em tudo, você contrata especialistas.

O que fizeram: Eles criaram o DR-TTS. Primeiro, eles dividiram o trabalho: um especialista só sabe usar a ferramenta de "pesquisa por imagem", outro só sabe usar "pesquisa por texto", outro só sabe "ler documentos".
A analogia: É como ter uma equipe de cirurgiões onde cada um é mestre em uma parte do corpo. Depois, eles juntam esses especialistas em uma "sala de guerra" (uma árvore de busca) para simular milhares de cenários de investigação. Eles testam: "E se o especialista de imagens tentar isso? E se o de textos tentar aquilo?".
Resultado: Eles criaram os melhores "roteiros" de investigação possíveis para ensinar o modelo principal.

C. O Motor de Busca Offline: O "Simulador de Voo"

Aqui está a parte que economizou milhões de dólares.

O problema: Treinar com a internet real (APIs online) é como voar um avião real para aprender a pilotar: é perigoso e custa uma fortuna em combustível.
A solução: Eles construíram um Motor de Busca Offline. É como um simulador de voo ultra-realista. Eles baixaram uma "biblioteca" gigante de textos e imagens antes de começar.
A analogia: Quando o modelo precisa pesquisar, ele não vai para a internet real. Ele vai para essa biblioteca interna. É instantâneo e gratuito. Isso permitiu que eles fizessem milhões de tentativas de treinamento sem gastar um centavo em taxas de internet.

3. O Resultado: O Super-Detetive

Com esses três ingredientes, eles treinaram o MM-DeepResearch.

Como ele funciona: Você mostra uma foto (ex: um prédio estranho) e faz uma pergunta. O modelo pensa: "Não sei quem construiu isso. Vou usar minha ferramenta de busca por imagem para identificar o prédio. Agora que sei o nome, vou usar minha ferramenta de texto para ler a história dele. Agora vou cruzar as informações e te dar a resposta."
Desempenho: Nos testes, esse novo agente superou outros modelos famosos (como o GPT-5 e o Qwen) em tarefas que exigem pesquisa profunda, mesmo sendo treinado de forma mais barata e inteligente.

Resumo Final

Pense no MM-DeepResearch como a diferença entre um aluno que decorou a enciclopédia e um pesquisador profissional que sabe usar a biblioteca, o laboratório e a internet para descobrir coisas novas.

Eles não apenas criaram um modelo mais inteligente; eles criaram um método mais barato e eficiente para ensinar qualquer modelo a ser um pesquisador, usando mapas de conexões (Hyper-Search), times de especialistas (DR-TTS) e um simulador de treinamento (Busca Offline).

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

1. O Problema: O Detetive sem Ferramentas

2. A Solução: Três Grandes Inovações

A. Hyper-Search: O "Mapa do Tesouro"

B. DR-TTS: A "Equipe de Especialistas"

C. O Motor de Busca Offline: O "Simulador de Voo"

3. O Resultado: O Super-Detetive

Resumo Final

Resumo Técnico: MM-DeepResearch

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

1. O Problema: O Detetive sem Ferramentas

2. A Solução: Três Grandes Inovações

A. Hyper-Search: O "Mapa do Tesouro"

B. DR-TTS: A "Equipe de Especialistas"

C. O Motor de Busca Offline: O "Simulador de Voo"

3. O Resultado: O Super-Detetive

Resumo Final

Resumo Técnico: MM-DeepResearch

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach