MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een super-rechercheur bent die niet alleen tekst kan lezen, maar ook foto's kan "snuffelen" om antwoorden te vinden. Dat is precies wat MM-DeepResearch doet. Het is een slimme computerprogramma dat complexe vragen kan beantwoorden door actief op internet te zoeken, net als een menselijke onderzoeker.

Maar hoe bouw je zo'n super-rechercheur? De auteurs van dit paper stuiten op drie grote problemen, die ze met drie creatieve oplossingen oplossen. Laten we het eens bekijken met een paar alledaagse vergelijkingen.

Het Probleem: De Drie Muren

Geen oefenmateriaal: Er zijn heel weinig vragen waarbij je zowel foto's als tekst moet zoeken om het antwoord te vinden. Het is alsof je iemand wilt leren vissen, maar er zijn geen visjes in het water om op te oefenen.
Geen goede routes: Bestaande methodes weten niet goed hoe ze stap-voor-stap moeten zoeken. Het is alsof je iemand een kaart geeft, maar die kaart heeft alleen lijnen die doodlopen.
Te duur: Het trainen van zo'n systeem met echte internet-zoekopdrachten kost duizenden dollars. Dat is alsof je een auto wilt leren rijden, maar elke kilometer brandstof kost je een maandloon.

De Oplossing: De Drie Magische Tools

Om deze muren te doorbreken, hebben de onderzoekers drie slimme tools bedacht:

1. Hyper-Search: De "Web-Web" (Het Kruisbestuivingsnet)

Stel je een enorm web voor, maar niet zomaar één. Dit is een hyperweb (een hypergraaf).

Hoe het werkt: Normaal gesproken zijn foto's en tekst los van elkaar. Hyper-Search plakt ze samen als een gigantisch spinnenweb. Als je een foto van een kasteel hebt, koppelt dit systeem die foto direct aan de tekst over de bouwmeester, de locatie, en andere foto's van soortgelijke kastelen.
De Analogie: Het is alsof je een detective bent die niet alleen naar een foto kijkt, maar direct een magische lijn trekt naar alle boeken, nieuwsartikelen en andere foto's die ermee te maken hebben. Hierdoor kunnen ze automatisch duizenden moeilijke vragen genereren die alleen opgelost kunnen worden door die lijnen te volgen. Ze noemen dit Hyper-Search.

2. DR-TTS: De "Meester-Orkestratie" (De Sfeer van de Expert)

Stel je een orkest voor waar elke muzikant een instrument bespeelt.

Hoe het werkt: Vaak probeert één AI alles zelf te doen, wat resulteert in een rommelig geluid. DR-TTS (Decompose-Recompose Tool Tree Search) splitst het werk op. Eerst leert het systeem één "meester" voor het zoeken met tekst, één "meester" voor het zoeken met foto's, en één voor het zoeken in databases.
De Analogie: In plaats van één generalist die alles halfslachtig doet, heb je nu een team van specialisten. Vervolgens laat je deze specialisten samenwerken in een boomstructuur (zoals een stamboom van beslissingen). Ze proberen verschillende routes uit: "Wat als we eerst een foto zoeken? En wat als we daarna tekst zoeken?" De beste route wordt gekozen. Dit zorgt voor een perfect getrainde "zoek-orchest" dat weet precies welk instrument (tool) op welk moment te spelen.

3. De Offline Zoekmachine: De "Bibliotheek van de Toekomst"

Hoe het werkt: In plaats van elke keer het echte, dure internet op te zoeken (wat kostbaar is), bouwen ze een offline zoekmachine. Dit is een enorme, vooraf ingevulde bibliotheek met miljoenen pagina's en foto's.
De Analogie: Stel je voor dat je een student wilt leren voor een examen. In plaats van hem elke dag naar de bibliotheek te sturen (waar hij lang moet wachten en betalen voor kopieën), geef je hem een perfecte, complete set van alle boeken in zijn kamer. Hij kan dan 24/7 oefenen, fouten maken en leren, zonder dat het hem één cent kost. Dit maakt het mogelijk om het systeem te trainen met duizenden "proefrondes" zonder de bank te laten springen.

Het Resultaat: De Super-Rechercheur

Door deze drie tools te combineren, hebben ze MM-DeepResearch gebouwd.

Het heeft geoefend op de gegenereerde "Hyper-Search" vragen.
Het heeft geleerd van de slimme "DR-TTS" routes.
Het heeft getraind in de goedkope "Offline Bibliotheek".

Wanneer ze dit systeem testen op echte, moeilijke vragen (waarbij je foto's en tekst moet combineren), presteert het beter dan veel andere geavanceerde modellen, zelfs die welke duurder zijn getraind.

Kortom: Ze hebben een manier gevonden om een AI te leren "diep te graven" in de wereld van informatie, zonder dat ze daarvoor een fortuin hoeven uit te geven of wachten op perfecte oefenmateriaal. Het is alsof ze een genie hebben opgeleid in een privé-schuilplaats met alle boeken ter wereld, zodat het straks de slimste detective van de stad is.

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Het Probleem: De Drie Muren

De Oplossing: De Drie Magische Tools

1. Hyper-Search: De "Web-Web" (Het Kruisbestuivingsnet)

2. DR-TTS: De "Meester-Orkestratie" (De Sfeer van de Expert)

3. De Offline Zoekmachine: De "Bibliotheek van de Toekomst"

Het Resultaat: De Super-Rechercheur

1. Het Probleem

2. Methodologie

A. Hyper-Search (Generatie van Zoekintensieve Data)

B. DR-TTS (Decompose–Recompose Tool Tree Search)

C. Offline Zoekengine

D. Trainingspipeline

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Betekenis en Impact

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Het Probleem: De Drie Muren

De Oplossing: De Drie Magische Tools

1. Hyper-Search: De "Web-Web" (Het Kruisbestuivingsnet)

2. DR-TTS: De "Meester-Orkestratie" (De Sfeer van de Expert)

3. De Offline Zoekmachine: De "Bibliotheek van de Toekomst"

Het Resultaat: De Super-Rechercheur

1. Het Probleem

2. Methodologie

A. Hyper-Search (Generatie van Zoekintensieve Data)

B. DR-TTS (Decompose–Recompose Tool Tree Search)

C. Offline Zoekengine

D. Trainingspipeline

3. Belangrijkste Resultaten

4. Belangrijkste Bijdragen

5. Betekenis en Impact

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction