Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie geben einem hochintelligenten, aber noch etwas unerfahrenen Assistenten eine Brille auf und bitten ihn, für Sie im Internet zu arbeiten. Er soll Formulare ausfüllen, auf Knöpfe klicken und komplexe Webseiten navigieren. Klingt einfach? Für die aktuellen „KI-Assistenten" (die sogenannten Multimodalen Large Language Models oder MLLMs) ist das oft wie ein Spaziergang durch ein Labyrinth, das sich ständig verändert.

Diese Forschungsarbeit stellt genau diese Assistenten auf den Prüfstand. Die Forscher haben einen neuen Test namens WebRRSBench entwickelt. Um zu verstehen, worum es dabei geht, nutzen wir ein paar einfache Vergleiche:

1. Der Test: Ein neuer Fahrprüfungs-Parcours

Bisherige Tests für KI waren wie eine theoretische Fahrprüfung: Sie fragten die KI nur, ob sie ein Schild lesen oder einen Text verstehen kann. Aber im echten Leben muss ein Autofahrer (oder ein KI-Agent) auch räumlich denken, bei schlechtem Wetter sicher bleiben und nicht in Panik geraten, wenn ein anderer Fahrer die Spur wechselt.

WebRRSBench ist wie ein extrem anspruchsvoller Fahrtest mit drei speziellen Disziplinen:

Denkvermögen (Reasoning):
- Die Aufgabe: Die KI muss verstehen, wo Dinge zueinander stehen. Ist der „Kaufen"-Knopf links oder rechts vom Bild?
- Das Problem: Viele KIs sind wie Menschen, die eine Landkarte lesen können, aber im echten Verkehr die Orientierung verlieren. Sie wissen oft nicht, dass ein Element über einem anderen liegt, wenn das Design kompliziert ist.
- Der Test: Die KI muss Beziehungen zwischen Elementen auf einer Webseite beschreiben, ähnlich wie man sagt: „Der Kühlschrank steht links neben dem Herd."
Robustheit (Robustness):
- Die Aufgabe: Was passiert, wenn die Welt um die KI herum verrückt spielt?
- Die Analogie: Stellen Sie sich vor, Sie fahren bei starkem Nebel (geringer Kontrast), jemand bemalt plötzlich 30 % der Autos auf der Straße in grelle Farben (Farbverschiebung) oder jemand ändert die Beschriftung an einem Verkehrsschild von „Stop" in „Stöp" (Textverzerrung).
- Der Test: Die Forscher verändern Webseiten absichtlich: Sie machen sie dunkel, ändern die Farben der Knöpfe oder fügen kleine Tippfehler hinzu. Eine gute KI sollte trotzdem wissen, welcher Knopf der wichtigste ist. Die aktuellen KIs stolpern hier oft über die kleinsten Veränderungen.
Sicherheit (Safety):
- Die Aufgabe: Kann die KI erkennen, wenn eine Handlung katastrophal ist?
- Die Analogie: Ein Autofahrer muss wissen, dass er nicht einfach in eine Mauer fahren darf. In der digitalen Welt gibt es Knöpfe wie „Konto dauerhaft löschen" oder „Nicht erstattbare Zahlung bestätigen".
- Der Test: Die KI muss erkennen, welche Knöpfe gefährlich sind und nicht versehentlich darauf klicken. Hier zeigen die KIs oft, dass sie zu vorsichtig sind (sie trauen sich nichts) oder zu unvorsichtig (sie löschen versehentlich alles).

2. Die Ergebnisse: Wer besteht den Test?

Die Forscher haben 11 verschiedene KI-Modelle getestet, von den großen, teuren „Super-Intelligenzen" (wie GPT-5) bis hin zu den kostenlosen Open-Source-Modellen.

Die Gewinner: Die großen, geschlossenen Modelle (die man nicht selbst herunterladen kann) waren deutlich besser. Sie waren wie erfahrene Rennfahrer, die auch bei Nebel und auf rutschiger Straße sicher bleiben.
Die Schwächen: Die kleineren Modelle hatten massive Probleme. Sie verwechselten oft die Position von Knöpfen oder fielen auf optische Täuschungen herein.
Der Durchbruch durch Training: Das Spannendste ist, dass die Forscher gezeigt haben, wie man die KIs verbessern kann. Durch gezieltes „Nachschulen" (Fine-Tuning) konnten sie die Leistung bei der räumlichen Orientierung von einem miserablen 16 % auf fast 41 % steigern. Das ist, als würde man einem Fahrschüler nach 10 Stunden extra-Training plötzlich die Angst vor dem Parken nehmen.

3. Warum ist das wichtig?

Stellen Sie sich vor, Sie lassen einen Roboter Ihren Online-Banking-Account verwalten. Wenn dieser Roboter nicht versteht, dass der „Löschen"-Knopf links vom „Speichern"-Knopf liegt, oder wenn er panisch wird, weil die Webseite plötzlich dunkler ist, könnte er Ihr ganzes Geld löschen oder versehentlich einen teuren Kauf tätigen.

Zusammenfassend:
Dieser Papier sagt uns: Unsere KI-Assistenten sind noch nicht bereit, allein im Internet zu arbeiten. Sie sind wie brillante Schüler, die die Theorie können, aber im echten, chaotischen Straßenverkehr noch zu viele Fehler machen. Der neue Test WebRRSBench ist wie ein strenger Fahrlehrer, der genau auf diese Schwächen achtet, damit wir in Zukunft sicherere und zuverlässigere digitale Assistenten haben.

Die Botschaft ist klar: Bevor wir KI-Systeme vollautomatisch unsere Webseiten bedienen lassen, müssen wir sie erst einmal in einem simulierten Chaos-Parcours trainieren, damit sie nicht bei der kleinsten Farbänderung oder einem Tippfehler die Kontrolle verlieren.

Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

1. Der Test: Ein neuer Fahrprüfungs-Parcours

2. Die Ergebnisse: Wer besteht den Test?

3. Warum ist das wichtig?

1. Problemstellung

2. Methodik: WebRRSBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Benchmarking MLLM-based Web Understanding: Reasoning, Robustness and Safety

1. Der Test: Ein neuer Fahrprüfungs-Parcours

2. Die Ergebnisse: Wer besteht den Test?

3. Warum ist das wichtig?

1. Problemstellung

2. Methodik: WebRRSBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks