Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog wat onervaren assistent hebt die je helpt om dingen op het internet te doen. Deze assistent kan niet alleen lezen, maar ook kijken naar websites, knoppen zien en begrijpen wat er gebeurt. We noemen deze assistent een MLLM (een multimodaal groot taalmodel).

De auteurs van dit papier zeggen: "Hé, we vertrouwen deze assistent nu al met belangrijke taken, zoals het invullen van formulieren of het aankopen van spullen. Maar hebben we wel goed getest of hij echt slim, sterk en veilig is?"

Om dit te ontdekken, hebben ze een nieuwe test ontwikkeld, genaamd WebRRSBench. Hier is een uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Zeer Slimme, maar Dwaas" Assistent

Vroeger keken we alleen of de assistent kon lezen of een knop kon vinden. Maar in het echte leven is het veel lastiger.

Redeneren: Als je vraagt "Welke knop zit links van de rode doos?", moet de assistent niet alleen de knop zien, maar ook de ruimte eromheen begrijpen.
Robuustheid (Sterk zijn): Wat gebeurt er als de website er anders uitziet? Stel, de kleuren zijn een beetje vervaagd, of de tekst is een beetje beschadigd door een virus? Is je assistent dan nog steeds slim, of raakt hij in paniek?
Veiligheid: Wat als er een knop is die zegt "Verwijder mijn account voor altijd"? Ziet je assistent het gevaar, of klikt hij er gewoon op omdat hij denkt dat het een normale knop is?

De huidige tests waren als een rijexamen op een lege parkeerplaats. Ze testten of de auto kon rijden, maar niet of hij kon overleven in een storm of op een drukke markt.

2. De Oplossing: WebRRSBench (De "Stormtest")

De onderzoekers hebben een nieuwe testbaan gebouwd met 729 echte websites en bijna 3.800 vragen. Ze hebben de assistenten drie soorten "stormen" laten doorstaan:

De Kleuren-Storm (Robuustheid): Ze hebben de kleuren van de websites veranderd. Soms maakten ze alles grijs en saai, soms veranderden ze de kleur van één knop, en soms van alle knoppen.
- Vergelijking: Het is alsof je iemand vraagt een auto te herkennen, maar je verandert de kleur van de auto van rood naar blauw, of je plakt een sticker op de koplamp. Raakt de assistent in de war, of herkent hij de auto nog steeds?
De Tekst-Storm (Robuustheid): Ze veranderden kleine letters of tekens in de tekst (bijvoorbeeld een 'o' vervangen door een '0').
- Vergelijking: Het is alsof je een bordje "Stop" verandert in "St0p". Een slimme assistent moet weten dat het nog steeds een stopbord is, maar veel modellen raken hierdoor in de war.
De Veiligheids-Test: Ze zochten websites met gevaarlijke knoppen (zoals "Account definitief verwijderen").
- Vergelijking: Ze kijken of de assistent een brandalarm herkent en niet per ongeluk de brandblusser neerzet, terwijl hij denkt dat het een drankautomaat is.

3. Wat Vonden Ze? (De Resultaten)

Ze hebben 11 verschillende assistenten (zowel gratis open-source modellen als dure, gesloten modellen) getest. Hier zijn de belangrijkste ontdekkingen:

De dure modellen zijn slimmer: De modellen van grote bedrijven (zoals GPT-5) deden het over het algemeen beter dan de gratis versies, vooral op het gebied van veiligheid.
Ze zijn kwetsbaar voor kleine veranderingen: Als je de kleuren of letters een beetje aanpaste, vielen veel modellen flink uit elkaar. Ze leunden te veel op de "schone" versie van de website.
Ruimtelijk inzicht is lastig: Veel modellen konden niet goed zeggen welke knop links of rechts van welke andere knop zat. Ze waren als een mens die wel kan lezen, maar geen gevoel heeft voor afstand.
Oefening baart kunst (Fine-tuning): Toen ze een model speciaal trainden op deze taken (een soort "bijles" geven), werd het plotseling veel beter. Een model dat eerder maar 16% goed had, deed het daarna voor 41% goed.

4. De Conclusie

De boodschap van dit papier is duidelijk: Onze AI-assistenten zijn nog niet klaar voor de echte wereld. Ze zijn goed in het lezen van een perfecte website, maar ze zijn nog te fragiel en soms te onveilig voor complexe, chaotische situaties.

We moeten ze meer trainen om niet alleen te kijken naar de kleuren en letters, maar om de betekenis en de veiligheid van een website echt te begrijpen, zelfs als de website er raar uitziet. WebRRSBench is de nieuwe meetlat om te zien of ze daar klaar voor zijn.

Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

1. Het Probleem: De "Zeer Slimme, maar Dwaas" Assistent

2. De Oplossing: WebRRSBench (De "Stormtest")

3. Wat Vonden Ze? (De Resultaten)

4. De Conclusie

Titel: Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

1. Het Probleem

2. Methodologie: WebRRSBench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

1. Het Probleem: De "Zeer Slimme, maar Dwaas" Assistent

2. De Oplossing: WebRRSBench (De "Stormtest")

3. Wat Vonden Ze? (De Resultaten)

4. De Conclusie

Titel: Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

1. Het Probleem

2. Methodologie: WebRRSBench

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks