VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y

Veröffentlicht 2026-03-18

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die große Entdeckung: Warum KI beim „Forschen" noch blind ist

Stell dir vor, du hast einen sehr intelligenten Assistenten, der im Internet surfen kann. Er ist wie ein Detektiv mit einem riesigen Buchwissen im Kopf. Aber wenn man ihm ein Foto zeigt und sagt: „Finde heraus, was auf diesem Bild passiert ist und suche im Internet nach Details dazu", stolpert er oft.

Warum? Weil die bisherigen Tests für solche KI-Assistenten (die sogenannten „Benchmarks") einen großen Fehler hatten:

Der „Google-Bildsuche"-Trick: Bisherige Tests gaben der KI ein Bild und eine Frage. Die KI musste nicht wirklich hinschauen. Sie konnte einfach das Bild bei Google eingeben, und Google sagte ihr sofort: „Das ist ein Bierbrauerei-Museum." Die KI brauchte ihr eigenes Sehen nicht, sie nutzte nur das Werkzeug. Das ist wie ein Detektiv, der statt zu suchen, einfach das Lösungsbuch aufschlägt.
Der „Text-Blindheit"-Fehler: Selbst wenn die KI ein Bild sah, bestand der Rest der Aufgabe nur aus Text. Sie musste keine weiteren Bilder analysieren. Es war, als würde man ihr ein Puzzle geben, bei dem sie nur die Ränder aus Text zusammenfügen muss, aber die bunten Bildteile ignoriert.

🚀 Die Lösung: VisBrowse-Bench (Der neue, faire Test)

Die Forscher haben sich gedacht: „Das reicht nicht!" Sie haben einen neuen, viel schwierigeren Test namens VisBrowse-Bench erfunden.

Wie funktioniert dieser neue Test?
Stell dir vor, die KI ist ein Archäologe, der eine Schatzkarte (das Bild) hat.

Der Anfang: Die KI sieht ein Foto (z. B. ein Gebäude).
Die Aufgabe: Sie muss herausfinden, was dieses Gebäude früher war.
Die Falle: Im Internet gibt es keine einfache Textantwort. Die KI muss selbst aktiv werden:
1. Sie muss das Bild genau analysieren (z. B. „Da ist ein Bierfass zu sehen").
2. Sie muss im Internet nach neuen Bildern suchen, die zu diesem Detail passen.
3. Sie muss diese neuen Bilder wieder sehen und verstehen (z. B. „Ah, auf diesem alten Foto steht dort 'Brauerei'").
4. Sie muss Text und Bilder verknüpfen, um die Antwort zu finden.

Es ist wie eine Schnitzeljagd, bei der man nicht nur lesen, sondern auch sehen muss, um den nächsten Hinweis zu finden. Wenn die KI nicht genau hinsieht, verpasst sie den Hinweis und findet den Schatz nicht.

🧪 Der Testlauf: Wie gut sind die aktuellen KIs?

Die Forscher haben die besten KI-Modelle der Welt (wie Claude, GPT, Gemini) in diesem neuen Test antreten lassen. Das Ergebnis war überraschend und etwas enttäuschend:

Die Gewinner: Selbst die allerbeste KI (Claude-4.6-Opus) erreichte nur 47,6 % richtige Antworten. Das ist weniger als eine 50/50-Chance!
Die anderen: Die meisten anderen Modelle lagen nur bei ca. 30 %.
Die „Deep Research"-Modelle: Sogar spezialisierte Forschungs-KIs (wie o3-deep-research) scheiterten mit nur 41,1 %.

Was bedeutet das?
Es zeigt, dass KIs zwar gut darin sind, Texte zu lesen und Werkzeuge zu bedienen, aber noch sehr schlecht darin sind, aktiv visuelle Informationen im Internet zu suchen, zu verstehen und mit Text zu verbinden. Sie sind wie ein Leser, der blind ist, wenn es um Bilder geht.

🛠️ Der neue Werkzeugkasten

Um diesen Test zu bestehen, haben die Forscher eine spezielle Arbeitsweise (einen „Workflow") entwickelt. Sie geben der KI fünf Werkzeuge in die Hand:

Text-Suche: Um nach Wörtern zu suchen.
Bild-Suche: Um nach Bildern zu suchen.
Rückwärts-Bild-Suche: Um ein Bild zu finden, das zu einem anderen passt.
Zuschneiden (Crop): Um auf einen kleinen Teil eines Bildes zu zoomen (wie mit einer Lupe).
Webseiten-Besuch: Um den Text auf einer Seite zu lesen.

Die KI muss nun selbst entscheiden: „Soll ich jetzt zoomen? Soll ich ein Bild suchen? Oder soll ich einen Text lesen?" Sie muss diese Werkzeuge wie ein geschickter Handwerker kombinieren.

🏁 Fazit: Der Weg ist lang, aber wichtig

Die Botschaft der Forscher ist klar:
Bisher haben wir KIs getestet, als wären sie nur Textmaschinen. Aber die echte Welt ist voller Bilder, Videos und komplexer visueller Hinweise. VisBrowse-Bench ist der erste ehrliche Spiegel, der zeigt: Unsere KI-Assistenten müssen noch viel lernen, wenn sie wirklich wie menschliche Detektive durch das visuelle Internet reisen sollen.

Es ist wie beim Lernen eines neuen Sports: Bisher haben wir nur geprüft, ob die KI rennen kann (Text). Jetzt prüfen wir, ob sie auch springen, balancieren und den Ball fangen kann (Bilder verstehen und suchen). Und da liegt noch viel Trainingsbedarf vor uns!

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

🕵️‍♂️ Die große Entdeckung: Warum KI beim „Forschen" noch blind ist

🚀 Die Lösung: VisBrowse-Bench (Der neue, faire Test)

🧪 Der Testlauf: Wie gut sind die aktuellen KIs?

🛠️ Der neue Werkzeugkasten

🏁 Fazit: Der Weg ist lang, aber wichtig

1. Problemstellung

2. Methodik: VisBrowse-Bench

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

🕵️‍♂️ Die große Entdeckung: Warum KI beim „Forschen" noch blind ist

🚀 Die Lösung: VisBrowse-Bench (Der neue, faire Test)

🧪 Der Testlauf: Wie gut sind die aktuellen KIs?

🛠️ Der neue Werkzeugkasten

🏁 Fazit: Der Weg ist lang, aber wichtig

1. Problemstellung

2. Methodik: VisBrowse-Bench

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents