MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ MM-DeepResearch: Der multikulturelle Detektiv mit einem riesigen Werkzeugkasten

Stellen Sie sich vor, Sie haben einen sehr klugen, aber etwas faulen Assistenten (eine Künstliche Intelligenz), der alles über die Welt weiß, was er in seinem Gedächtnis gespeichert hat. Aber wenn Sie ihn fragen: „Wie sieht das Wetter heute in einer kleinen Stadt in Peru aus, und wie hat sich die Architektur des dortigen Rathauses im Vergleich zu einem ähnlichen Gebäude in Japan verändert?", stößt er an seine Grenzen. Er weiß es einfach nicht, weil es nicht in seinem „Gedächtnisbuch" steht.

Bisherige KI-Modelle waren wie Bibliotheksbesucher, die nur das lesen durften, was auf den Regalen stand. Wenn das Buch fehlte, gaben sie auf.

MM-DeepResearch ist etwas ganz anderes. Es ist wie ein professioneller Privatdetektiv, der nicht nur lesen kann, sondern auch:

Denkvermögen hat: Er plant genau, wie er die Antwort findet.
Werkzeuge benutzt: Er kann googeln, Bilder suchen, Videos ansehen und Experten fragen.
Alles verbindet: Er verknüpft ein Foto mit einem Text und einer Statistik zu einer schlüssigen Geschichte.

Das Problem war bisher: Solche Detektive zu trainieren, war extrem schwierig, teuer und langweilig. Die Forscher haben drei geniale Tricks entwickelt, um das zu lösen.

🧩 Trick 1: Der „Hyper-Such-Netz"-Generator (Hyper-Search)

Das Problem: Um einen Detektiv zu trainieren, braucht man viele Übungsaufgaben, bei denen er muss, um das Internet zu durchsuchen. Solche Aufgaben gibt es aber kaum.

Die Lösung: Die Forscher haben eine Art digitalen Spinnennetz-Generator gebaut.
Stellen Sie sich vor, Sie haben ein Foto einer alten Burg.

Der Generator nimmt dieses Foto und sucht im Internet nach ähnlichen Fotos (z. B. von anderen Winkeln).
Dann sucht er nach Texten über diese Burg (z. B. Baupläne, historische Artikel).
Er verknüpft alles zu einem riesigen Spinnennetz (Hypergraph).

Aus diesem Netz generiert er dann automatisch schwierige Fragen wie: „Vergleichen Sie die Dachziegel auf diesem Foto mit denen im Artikel von 1920."
Die Analogie: Es ist wie ein Koch, der nicht nur Rezepte kauft, sondern selbst neue, komplexe Gerichte erfindet, indem er Zutaten aus verschiedenen Supermärkten kombiniert, um sicherzustellen, dass der angehende Koch (die KI) wirklich kochen muss, nicht nur ablesen kann.

🌳 Trick 2: Der „Baum-Experten"-Ansatz (DR-TTS)

Das Problem: Wenn man einen KI-Detektiv trainiert, versucht er oft, alles auf einmal zu lösen. Er ruft das falsche Werkzeug auf (z. B. eine Textsuche, wenn er ein Bild braucht) und verirrt sich.

Die Lösung: Die Forscher bauen keine „Super-Detektive", sondern erst Spezialisten.

Schritt 1 (Zerlegen): Sie bilden einen Experten für Bildsuche, einen für Textsuche und einen für Expertenwissen. Jeder lernt nur sein eigenes Handwerk perfekt.
Schritt 2 (Wiedervereinigen): Diese Spezialisten arbeiten dann zusammen wie ein Rat von Weisen. Sie nutzen einen „Baum-Such-Algorithmus". Das bedeutet: Sie probieren verschiedene Wege aus (wie Äste an einem Baum). Wenn ein Weg in eine Sackgasse führt, wird er abgeschnitten. Wenn ein Weg zur Lösung führt, wird er behalten.

Die Analogie: Statt einen Generalisten zu haben, der alles halb gut kann, haben Sie ein Team aus einem Bild-Experten, einem Text-Experten und einem Logik-Experten. Sie diskutieren untereinander („Ich suche erst das Bild, dann den Text") und finden so den besten Pfad zur Antwort.

🏗️ Trick 3: Die „Offline-Simulations-Stadt" (Offline Search Engine)

Das Problem: Echte Internetsuche kostet Geld (API-Gebühren) und ist langsam. Wenn man eine KI trainiert, muss sie millionenfach suchen. Das würde Tausende von Dollar kosten und ewig dauern.

Die Lösung: Die Forscher bauen eine große, offline Simulations-Stadt.
Sie sammeln vorher Millionen von Bildern und Texten und speichern sie lokal. Wenn die KI während des Trainings „googeln" will, sucht sie nicht im echten Internet, sondern in dieser vorbereiteten Bibliothek.

Vorteil: Es kostet 0 Dollar.
Vorteil: Es ist blitzschnell (keine Wartezeit auf echte Server).

Die Analogie: Statt den Schüler jeden Tag in die echte Bibliothek zu schicken (was Geld und Zeit kostet), bauen Sie eine Nachbildung der Bibliothek im Klassenzimmer. Der Schüler kann dort endlos üben. Wenn er dann zur Prüfung kommt (im echten Internet), ist er so geübt, dass er die echten Bücher sofort findet.

🚀 Das Ergebnis: Der Meister-Detektiv

Durch diese drei Tricks haben die Forscher MM-DeepResearch geschaffen.

Er wurde mit den selbstgemachten schwierigen Fragen trainiert.
Er hat gelernt, wie man die Spezialisten-Teams koordiniert.
Er hat in der kostenlosen Simulations-Stadt geübt.

Das Ergebnis? Wenn man ihn jetzt auf echte Aufgaben testet (wie „Finden Sie den Architekten dieses Gebäudes und vergleichen Sie ihn mit einem anderen"), schlägt er fast alle bisherigen Modelle, auch solche, die viel teurer trainiert wurden. Er ist schneller, billiger zu produzieren und besser im Lösen von kniffligen, mehrstufigen Rätseln.

Kurz gesagt: Sie haben einen KI-Detektiv gebaut, der nicht nur auswendig lernt, sondern wirklich forscht, indem er clever plant, spezialisierte Werkzeuge nutzt und in einer günstigen Simulation trainiert wurde.

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

🕵️‍♂️ MM-DeepResearch: Der multikulturelle Detektiv mit einem riesigen Werkzeugkasten

🧩 Trick 1: Der „Hyper-Such-Netz"-Generator (Hyper-Search)

🌳 Trick 2: Der „Baum-Experten"-Ansatz (DR-TTS)

🏗️ Trick 3: Die „Offline-Simulations-Stadt" (Offline Search Engine)

🚀 Das Ergebnis: Der Meister-Detektiv

1. Problemstellung

2. Methodik

A. Hyper-Search (Datengenerierung)

B. DR-TTS (Decompose–Recompose Tool Tree Search)

C. Offliner Suchmaschine

D. Trainingspipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

🕵️‍♂️ MM-DeepResearch: Der multikulturelle Detektiv mit einem riesigen Werkzeugkasten

🧩 Trick 1: Der „Hyper-Such-Netz"-Generator (Hyper-Search)

🌳 Trick 2: Der „Baum-Experten"-Ansatz (DR-TTS)

🏗️ Trick 3: Die „Offline-Simulations-Stadt" (Offline Search Engine)

🚀 Das Ergebnis: Der Meister-Detektiv

1. Problemstellung

2. Methodik

A. Hyper-Search (Datengenerierung)

B. DR-TTS (Decompose–Recompose Tool Tree Search)

C. Offliner Suchmaschine

D. Trainingspipeline

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Bitboard version of Tetris AI

Multiverse: Language-Conditioned Multi-Game Level Blending via Shared Representation

Concerning Uncertainty -- A Systematic Survey of Uncertainty-Aware XAI

Neuro-Symbolic Learning for Predictive Process Monitoring via Two-Stage Logic Tensor Networks with Rule Pruning

Compliance-Aware Predictive Process Monitoring: A Neuro-Symbolic Approach