Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber etwas vergesslichen Assistenten. Er kennt die Welt auswendig, was er gelernt hat, aber wenn du ihn nach etwas Fragst, das heute passiert ist oder das in einem speziellen Foto versteckt ist, stößt er oft an seine Grenzen. Er versucht, aus dem Gedächtnis zu antworten, und macht dabei Fehler.

Das ist das Problem, das die Forscher mit Vision-DeepResearch lösen wollen. Hier ist die Erklärung, wie sie das tun, ganz einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Sturkopf" und der "Nebel"

Bisherige KI-Modelle, die Bilder verstehen, machen oft zwei Fehler:

Der "Sturkopf"-Fehler (Hit-Rate Problem): Stell dir vor, du suchst in einer riesigen Bibliothek nach einem bestimmten Buch. Die alten KIs würden versuchen, das ganze Regal auf einmal zu scannen. Aber das Bild ist voller Unordnung (Nebel, andere Gegenstände). Die KI schaut sich das ganze Bild an, wird verwirrt und findet das Buch nicht.
- Die Lösung: Unsere neue KI ist wie ein Detektiv, der nicht stur auf das ganze Bild starrt. Sie schneidet kleine Ausschnitte heraus (wie mit einer Lupe), sucht in verschiedenen Größen und fragt: "Ist das hier das, was ich suche? Nein? Okay, probieren wir einen anderen Ausschnitt." Sie gibt nicht auf, bis sie den Treffer hat.
Der "Oberflächliche"-Fehler (Reasoning Depth): Wenn die alte KI etwas sucht, gibt sie oft nach zwei oder drei Versuchen auf. "Ich habe es nicht gefunden, hier ist keine Antwort."
- Die Lösung: Unsere neue KI ist wie ein erfahrener Journalist. Sie weiß, dass die Wahrheit oft hinter mehreren Ecken versteckt ist. Sie macht sich auf eine lange Reise: Sie sucht ein Bild, liest eine Webseite, sucht nach einem Namen, prüft eine andere Quelle und verknüpft alles miteinander. Sie kann Dutzende von Schritten machen, bis sie die Antwort hat.

2. Die Lösung: Ein "Super-Detektiv" mit einer Bibliothek

Die Forscher haben eine neue Methode entwickelt, die man Vision-DeepResearch nennt. Das funktioniert in drei Schritten:

Schritt 1: Das Training im Simulator (Die "Flugsimulatoren")
Bevor die KI echte Fragen beantwortet, hat sie in einer riesigen Fabrik trainiert. Dort haben Computer automatisch Millionen von schwierigen Rätseln erstellt.
- Die Analogie: Stell dir vor, man baut eine riesige Flugsimulatoren-Anlage. Die KI fliegt durch tausende von virtuellen Stürmen und Labyrinthen, lernt, wie man bei schlechtem Wetter (verrauschte Bilder) navigiert und wie man lange Strecken fliegt, ohne zu landen. Sie lernt, nicht nur "gucken", sondern zu "forschen".
Schritt 2: Die Brücke zwischen Bild und Text
Die KI lernt, dass ein Bild oft nur ein Teil der Geschichte ist. Sie nimmt ein Bild, beschreibt es in Worten und nutzt diese Beschreibung, um im Internet nach mehr Informationen zu suchen.
- Die Analogie: Es ist wie ein Detektiv, der ein Foto eines Tatorts macht, aber dann nicht nur das Foto betrachtet, sondern die Beschreibung des Fotos nutzt, um im Telefonbuch, in Zeitungsarchiven und bei Zeugen nachzufragen. Bild und Text arbeiten Hand in Hand.
Schritt 3: Das "Belohnungssystem" (Reinforcement Learning)
Die KI hat viele Versuche gemacht. Aber wie lernt sie, was gut ist? Die Forscher haben ihr gesagt: "Wenn du die richtige Antwort findest, bekommst du einen Sternchen-Punkt. Wenn du aufgibst oder falsch liegst, gibt es keinen Punkt."
- Die Analogie: Wie ein Hund, der Leckerlis bekommt, wenn er den richtigen Trick macht. Die KI hat Millionen von Versuchen gemacht, hat gelernt, welche Wege zum Ziel führen und welche in Sackgassen enden. Sie wurde so trainiert, dass sie nicht aufhört, bis sie den "Stern" (die richtige Antwort) hat.

3. Das Ergebnis: Ein kleiner Riese

Das Tolle an dieser Arbeit ist, dass sie nicht nur riesige, teure Computermodelle braucht. Sie haben gezeigt, dass sogar ein kleineres Modell (wie ein "kleiner Assistent") durch dieses spezielle Training so gut wird, dass es mit den größten, teuersten Modellen der Welt mithalten kann – und manchmal sogar besser ist.

Zusammenfassend:
Stell dir Vision-DeepResearch wie einen Detektiv vor, der nicht stur auf ein Foto starrt, sondern:

Das Foto in viele kleine Puzzleteile zerlegt, um den richtigen Hinweis zu finden.
Nicht aufgibt, bis er Dutzende von Quellen geprüft hat.
Durch unzählige Trainingsrunden gelernt hat, wie man komplexe Rätsel löst.

Das Ergebnis ist eine KI, die in der Lage ist, tief in das Internet und in Bilder einzutauchen, um Antworten zu finden, die für andere KIs zu schwer oder zu versteckt sind.

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

1. Das Problem: Der "Sturkopf" und der "Nebel"

2. Die Lösung: Ein "Super-Detektiv" mit einer Bibliothek

3. Das Ergebnis: Ein kleiner Riese

1. Problemstellung

2. Methodik: Der Vision-DeepResearch-Ansatz

A. Hochautomatisierte Datenpipeline (Data Synthesis)

B. Training (SFT und RL)

C. Suchstrategie

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

1. Das Problem: Der "Sturkopf" und der "Nebel"

2. Die Lösung: Ein "Super-Detektiv" mit einer Bibliothek

3. Das Ergebnis: Ein kleiner Riese

1. Problemstellung

2. Methodik: Der Vision-DeepResearch-Ansatz

A. Hochautomatisierte Datenpipeline (Data Synthesis)

B. Training (SFT und RL)

C. Suchstrategie

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments

AutoB2G: A Large Language Model-Driven Agentic Framework For Automated Building-Grid Co-Simulation

Semi-Automated Knowledge Engineering and Process Mapping for Total Airport Management

GUIDE: Resolving Domain Bias in GUI Agents through Real-Time Web Video Retrieval and Plug-and-Play Annotation

AIRA_2: Overcoming Bottlenecks in AI Research Agents