Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen superintelligenten Assistenten, der sowohl Bilder als auch Texte verstehen kann. Dieser Assistent soll wie ein Detektiv arbeiten: Er bekommt ein Foto und eine Frage, sucht im Internet nach Antworten und versucht, alles zusammenzufügen.

Das Problem ist: Die bisherigen Tests für solche Assistenten waren wie eine Falle.

Hier ist die einfache Erklärung der neuen Forschung „Vision-DeepResearch" (oder kurz VDR-Bench), als wäre es eine Geschichte:

1. Das alte Problem: Der „Fahrrad-Test"

Stell dir vor, du willst testen, ob dein Assistent wirklich gut im Sehen ist. Du zeigst ihm ein Foto von einem Fahrrad und fragst: „Welche Farbe hat das Rad?"

In den alten Tests war das aber oft ein Trick:

Der Text-Trick: Die Frage lautete: „Das Fahrrad ist rot oder blau? Es ist die Farbe der Flagge von Deutschland." Dein Assistent musste gar nicht auf das Bild schauen! Er wusste einfach aus seinem Gedächtnis (Weltwissen), dass die deutsche Flagge schwarz-rot-gold ist, und riet „Rot". Er hat nicht gesehen, er hat nur gelesen.
Der „Perfekte Foto"-Trick: Wenn der Assistent das Bild ins Internet hochlädt, findet er oft sofort das exakt gleiche Bild mit dem Titel „Rotes Fahrrad". Das ist wie bei Google Bilder: Du suchst nach einem Bild und findest sofort das Original mit der Antwort darauf. Das ist zu einfach. Es ist, als würdest du einen Detektiv testen, indem du ihm den Lösungsschlüssel direkt in die Hand drückst.

Das Ergebnis: Die alten Tests haben nicht gemessen, ob der Assistent wirklich gut schauen kann, sondern nur, ob er gut raten oder lesen kann.

2. Die neue Lösung: VDR-Bench (Der echte Detektiv-Test)

Die Forscher haben einen neuen, fairen Test entwickelt, den sie VDR-Bench nennen. Stell dir das wie einen echten Schnitzeljagd-Spiel vor, bei dem keine Abkürzungen erlaubt sind.

Keine Abkürzungen: Die Fragen sind so gestellt, dass man das Bild wirklich ansehen muss. Man kann die Antwort nicht erraten, nur weil man weiß, wie die Welt funktioniert.
Das „Mikroskop"-Prinzip: Statt das ganze Bild hochzuladen (was oft nur das Originalbild zurückbringt), müssen die Assistenten das Bild wie mit einer Lupe heranzoomen. Sie müssen kleine Teile ausschneiden (z. B. nur ein Logo, nur ein Schild, nur ein Gesicht) und diese kleinen Teile einzeln im Internet suchen.
Der Puzzle-Effekt: Die Fragen sind wie ein mehrstufiges Rätsel.
- Beispiel: „Wer hat das Gebäude auf dem Foto gebaut?"
- Schritt 1: Der Assistent muss das Gebäude im Bild erkennen (durch Heranzoomen).
- Schritt 2: Er sucht im Internet nach dem Namen des Gebäudes.
- Schritt 3: Er muss dann noch eine zweite Suche starten: „Wer war der Architekt dieses Gebäudes?"
- Nur wer diesen ganzen Weg geht, gewinnt.

3. Die neue Strategie: „Mehrfach-Zoomen"

Die Forscher haben auch eine neue Methode für die Assistenten entwickelt, die sie „Multi-Round Cropped-Search" nennen.

Stell dir vor, du suchst nach einem bestimmten Vogel in einem dichten Wald (dem Bild).

Der alte Weg: Du schreist „Vogel!" in den Wald und hoffst, jemand ruft zurück. Oft passiert nichts, oder du hörst nur ein falsches Geräusch.
Der neue Weg (Mehrfach-Zoomen): Du nimmst erst einen Ast genauer unter die Lupe. Nichts. Dann zoomst du auf ein Blatt. Nichts. Dann siehst du ein kleines Nest. Jetzt suchst du spezifisch nach „Vogel im Nest".
- Diese Methode funktioniert viel besser. Sie zwingt den Assistenten, sich Schritt für Schritt vorzuarbeiten, statt alles auf einmal zu wollen.

4. Was haben sie herausgefunden?

Als sie ihre neuen Tests mit den besten KI-Modellen der Welt machten, kam eine Überraschung ans Licht:

Die „faulen Genies": Die allerstärksten Modelle (die viel Wissen auswendig gelernt haben) waren oft faul. Sie versuchten, die Antwort aus ihrem Gedächtnis zu erraten, ohne wirklich zu suchen. Weil der neue Test aber keine Abkürzungen zulässt, haben sie oft gescheitert.
Die „fleißigen Sucher": Modelle, die weniger auswendig gelernt hatten, aber besser darin waren, die Suchwerkzeuge zu benutzen (das Bild zu zerschneiden und gezielt zu suchen), kamen viel weiter.
Die Lektion: Um einen echten „Deep-Research"-Assistenten zu bauen, reicht es nicht, das Gehirn (das Modell) größer zu machen. Man muss ihm beibringen, genau hinzuschauen und systematisch zu suchen, genau wie ein echter Detektiv.

Zusammenfassung

Dieser Papier sagt im Grunde: „Hört auf, KI mit zu einfachen Tests zu belügen. Wir haben einen neuen, harten Test gebaut, bei dem man wirklich sehen und suchen muss. Und wir haben gezeigt, dass der beste Weg, ein KI-Genie zu machen, nicht mehr Wissen ist, sondern die Fähigkeit, ein Bild wie ein Puzzle in kleine Teile zu zerlegen und jedes Teil sorgfältig zu untersuchen."

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

1. Das alte Problem: Der „Fahrrad-Test"

2. Die neue Lösung: VDR-Bench (Der echte Detektiv-Test)

3. Die neue Strategie: „Mehrfach-Zoomen"

4. Was haben sie herausgefunden?

Zusammenfassung

1. Problemstellung

2. Methodik: VDR-Bench und der Cropped-Search-Workflow

A. VDR-Bench (Der Datensatz)

B. Multi-Round Cropped-Search Workflow

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

1. Das alte Problem: Der „Fahrrad-Test"

2. Die neue Lösung: VDR-Bench (Der echte Detektiv-Test)

3. Die neue Strategie: „Mehrfach-Zoomen"

4. Was haben sie herausgefunden?

Zusammenfassung

1. Problemstellung

2. Methodik: VDR-Bench und der Cropped-Search-Workflow

A. VDR-Bench (Der Datensatz)

B. Multi-Round Cropped-Search Workflow

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Relational graph-driven differential denoising and diffusion attention fusion for multimodal conversation emotion recognition

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Doctorina MedBench: End-to-End Evaluation of Agent-Based Medical AI

Gradient-Informed Training for Low-Resource Multilingual Speech Translation

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio