VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

Zhengbo Zhang, Jinbo Su, Zhaowen Zhou, Changtao Miao, Yuhan Hong, Qimeng Wu, Yumeng Liu, Feier Wu, Yihe Tian, Yuhao Liang, Zitong Shan, Wanke Xia, Yi-Fan Zhang, Bo Zhang, Zhe Li, Shiming Xiang, Ying Y

Gepubliceerd 2026-03-18

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

VisBrowse-Bench: De "Visuele Speurtocht" voor Slimme Robots

Stel je voor dat je een zeer slimme, digitale detective hebt. Deze detective kan lezen, schrijven en zoeken op internet. Maar tot nu toe was deze detective een beetje een "eenogige" detective: hij kon alleen tekst lezen, maar had moeite met het begrijpen van foto's, tekeningen of complexe plaatjes die op websites staan.

De auteurs van dit paper hebben een nieuw spel bedacht om te testen hoe goed deze digitale detectives echt zijn in het combineren van lezen én kijken. Ze noemen dit VisBrowse-Bench.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Probleem: De "Tekst-Blinde" Detective

Vroeger waren de tests voor deze robots simpel. Je gaf ze een foto en een vraag, en de robot mocht een zoekmachine gebruiken. Maar dat was te makkelijk.

Het oude probleem: Als je een foto van een beroemd gebouw liet zien, kon de robot de foto gewoon in een zoekmachine gooien. De zoekmachine gaf direct de naam van het gebouw terug. De robot hoefde niet echt na te denken over de foto; hij hoefde alleen maar de naam te kopiëren en te zoeken. Het was alsof je een raadsel oplost door gewoon het antwoord op Google te typen in plaats van het zelf te raden.
De nieuwe uitdaging: In het echte leven is het anders. Soms moet je eerst een foto bekijken om te begrijpen wie er op staat, dan een andere foto zoeken om te zien waar ze zijn, en dan pas een tekst lezen om de definitieve vraag te beantwoorden. De oude tests keken hier niet naar.

2. De Oplossing: VisBrowse-Bench (De Grote Visuele Speurtocht)

De onderzoekers hebben 169 nieuwe, moeilijke puzzels gemaakt. Deze puzzels zijn zo ontworpen dat je niet kunt winnen zonder echt naar de plaatjes te kijken.

Hoe ziet zo'n puzzel eruit?
Stel je een vraag voor als een schatkaart:

De start: Je krijgt een foto van een groep mensen. De vraag is: "Wie is de persoon rechtsachter Einstein, en in welk jaar haalde diegene zijn doctoraat?"
De valstrik: Je kunt niet gewoon "Einstein" googelen. Je moet eerst de foto analyseren om te zien wie die persoon is (bijvoorbeeld Paul Dirac).
De reis: Pas nadat je die naam uit de foto hebt gehaald, mag je zoeken in teksten. Maar wacht! De volgende stap vereist weer een foto. Misschien moet je een poster van een film zoeken en kijken wie er onder een bepaalde acteur staat.
De conclusie: Pas als je die visuele puzzelstukken hebt samengevoegd met de tekst, heb je het antwoord.

Het is alsof je een detective bent die eerst een foto moet bestuderen om een verdachte te identificeren, dan een krant moet lezen om zijn verleden te vinden, en dan weer een andere foto moet bekijken om te zien waar hij nu is. Als je alleen tekst leest, mis je cruciale stukjes van de puzzel.

3. De Robot en zijn Gereedschapskist

Om deze tests te doen, hebben de onderzoekers een speciale "werkstroom" voor de robots gebouwd. De robot heeft nu een gereedschapskist met vijf belangrijke tools:

Tekst zoeken: Zoeken in woorden.
Beeld zoeken: Zoeken op basis van een beschrijving van een plaatje.
Omgekeerd beeld zoeken: Een plaatje uploaden om te zien waar het vandaan komt.
Knippen: Een stukje van een foto vergroten om details te zien (zoals een logo of een gezicht).
Webpagina bezoeken: Een website openen om de tekst te lezen.

De robot moet zelf beslissen: "Moet ik nu een foto knippen? Of moet ik een tekst zoeken?"

4. De Resultaten: De Robots Struikelen nog

De onderzoekers hebben de slimste robots ter wereld (zoals Claude, Gemini en GPT) deze test laten doen. Het nieuws is niet zo goed als je misschien hoopt:

De beste robot (Claude-4.6-Opus) haalde slechts 47,6% goed. Dat betekent dat hij in meer dan de helft van de gevallen faalde, zelfs met alle hulpmiddelen.
De "Deep Research" robot (o3) haalde zelfs maar 41,1%.
De open-source robots deden het nog slechter, vaak rond de 10-30%.

Waarom lukt het niet?
De robots zijn geweldig in het lezen van lange teksten en het vinden van feiten. Maar als ze moeten kijken naar een foto, een gezicht herkennen, of een detail in een hoekje van een plaatje moeten vinden, raken ze in de war. Ze proberen vaak de foto te "omzeilen" door te gokken of door alleen tekst te zoeken, wat in deze specifieke tests niet werkt.

5. Waarom is dit belangrijk?

Dit onderzoek is als een wake-up call voor de tech-wereld.

Vroeger: We dachten dat robots alles al konden omdat ze goed konden lezen.
Nu: We zien dat ze nog niet klaar zijn voor het echte internet, waar informatie een mix is van foto's, video's en tekst. Als een robot niet goed kan "kijken" terwijl hij zoekt, kan hij geen betrouwbare assistent worden voor complexe taken.

Kort samengevat:
VisBrowse-Bench is een nieuwe, moeilijke test die robots dwingt om écht te kijken en te denken, niet alleen te lezen. Het bewijst dat onze slimste digitale detectives nog veel moeten leren voordat ze echt meesters in het visuele internet kunnen worden. Het is alsof we ze net hebben laten zien dat er meer is dan alleen woorden op een pagina.

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

1. Het Probleem: De "Tekst-Blinde" Detective

2. De Oplossing: VisBrowse-Bench (De Grote Visuele Speurtocht)

3. De Robot en zijn Gereedschapskist

4. De Resultaten: De Robots Struikelen nog

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

VisBrowse-Bench: Benchmarking Visual-Native Search for Multimodal Browsing Agents

1. Het Probleem: De "Tekst-Blinde" Detective

2. De Oplossing: VisBrowse-Bench (De Grote Visuele Speurtocht)

3. De Robot en zijn Gereedschapskist

4. De Resultaten: De Robots Struikelen nog

5. Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents