WebDS: An End-to-End Benchmark for Web-based Data Science

Each language version is independently generated for its own context, not a direct translation.

🌍 Die große Herausforderung: Vom „Suchen" zum „Verstehen"

Stellen Sie sich vor, ein KI-Modell (ein „Agent") ist wie ein sehr schneller, aber manchmal etwas verwirrter Büroangestellter, der gerade erst eingestellt wurde.

Bisher haben wir diesen Angestellten nur in kleinen, sicheren Übungsräumen getestet:

Frühere Tests (Web-Benchmarks): Wir sagten ihm: „Geh zur Buchhandlung und kaufe ein rotes Buch." Das war einfach. Der Angestellte musste nur ein paar Schritte gehen und eine Tür öffnen.
Frühere Daten-Tests (Data Science Benchmarks): Wir gaben ihm einen fertigen Excel-Tisch und sagten: „Berechne die Summe." Auch das war einfach, weil die Daten schon da waren.

Das Problem: In der echten Welt ist Datenwissenschaft viel chaotischer. Ein echter Analyst muss erst ins Internet gehen, durch 10 verschiedene Webseiten wandern (manche sind wie alte Bibliotheken, manche wie moderne Apps), Daten aus verschiedenen Quellen zusammenflicken, sie säubern, analysieren und am Ende einen Bericht schreiben.

Bisherige KI-Tests haben diesen „echten" Arbeitsalltag nicht geprüft.

🚀 Die Lösung: WebDS (Der neue Prüfungsraum)

Die Autoren haben WebDS entwickelt. Man kann sich das wie einen großen, realistischen Labyrinth-Simulator vorstellen, der speziell für Daten-Analysten gebaut wurde.

Das Szenario: Statt nur ein Buch zu kaufen, muss der KI-Agent jetzt Aufgaben lösen wie: „Finde die Geburtenzahlen aus drei verschiedenen Regierungsseiten, vergleiche sie mit den Statistiken einer Musikplattform, erstelle ein Diagramm und schreibe einen Bericht für den Bürgermeister."
Die Größe: Es gibt 870 verschiedene Aufgaben auf 29 verschiedenen Webseiten (von Gesundheitsämtern bis zu Sportdaten).
Der Clou: Die Aufgaben sind „mehrschichtig". Der Agent muss oft von Seite A zu Seite B springen, eine Datei herunterladen, sie in einem Programm öffnen, Zahlen umrechnen und dann entscheiden, was das eigentlich bedeutet.

📉 Das schockierende Ergebnis: Die KI stolpert

Die Forscher haben die besten aktuellen KIs (wie GPT-4o oder Claude) in diesem Simulator getestet. Das Ergebnis war ernüchternd:

In alten Tests: Diese KIs waren super. Sie schafften 80–90 % der Aufgaben.
In WebDS: Die KIs fielen auf unter 15 % (manche sogar auf unter 5 %).

Warum? Die KIs scheitern an typischen menschlichen Fehlern, nur dass sie sie als Roboter machen:

Der „Halluzinations"-Effekt: Die KI liest eine Zahl auf einer Webseite, vergisst sie aber sofort und erfindet eine neue. (Wie wenn ein Angestellter die Zahlen im Kopf verwechselt).
Der „Stuck"-Effekt: Die KI klickt 50 Mal auf denselben Button, obwohl er gar nicht funktioniert, und gibt nicht auf. (Wie ein Kind, das immer wieder gegen eine geschlossene Tür rennt).
Der „Abkürzungs"-Effekt: Statt die harte Arbeit zu machen, googelt die KI die Antwort einfach und nimmt eine falsche Wikipedia-Seite, weil sie zu faul ist, die Originaldaten zu prüfen.

👨‍💻 Der Mensch im Vergleich

Um zu zeigen, wie schwer die Aufgabe wirklich ist, haben echte Menschen (mit Daten-Erfahrung) den gleichen Test gemacht.

Menschen: Schafften 90 % der Aufgaben.
KI: Schaffte unter 15 %.

Das zeigt eine riesige Lücke: Unsere KIs sind heute noch nicht in der Lage, komplexe, mehrstufige Datenarbeiten am Computer selbstständig zu erledigen. Sie können gut reden, aber schlecht arbeiten.

🔍 Was lernen wir daraus?

Die Forscher sagen: Wir müssen die KIs nicht nur „dümmer" machen (mehr Daten), sondern sie besser disziplinieren.

Sie müssen lernen, ihre Arbeit zu überprüfen (Grounding): „Habe ich wirklich die richtige Zahl gelesen?"
Sie müssen lernen, Fehler zu erkennen: „Der Button hat nicht geklappt, ich muss einen anderen Weg versuchen."
Sie müssen lernen, Geduld zu haben und nicht einfach abzuschneiden.

🎯 Fazit

WebDS ist wie ein neuer, härterer Führerschein-Test für KIs. Bisher haben sie nur in einer leeren Garage geübt. Jetzt müssen sie im echten Stadtverkehr fahren, mit Staus, Baustellen und unerwarteten Hindernissen.

Die Nachricht ist klar: Wir haben noch einen langen Weg vor uns, bis KIs wirklich als zuverlässige Daten-Analysten eingesetzt werden können. Aber mit diesem neuen Test (WebDS) wissen wir jetzt genau, wo die Schwachstellen liegen und woran wir arbeiten müssen.

Kurz gesagt: Wir haben eine neue, sehr schwierige Prüfung für KIs erstellt, die zeigt, dass sie im echten Daten-Dschungel noch sehr verloren sind – im Gegensatz zu echten Menschen, die dort mühelos zurechtkommen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Bestehende Benchmarks für KI-Agenten decken die Komplexität realer Datenwissenschaftsaufgaben im Web nicht ausreichend ab.

Web-Agenten-Benchmarks (z. B. WebVoyager, WebArena) konzentrieren sich oft auf einfache Interaktionen (z. B. Einkaufen, Reddit-Posts) und testen selten die Fähigkeit, Daten zu manipulieren, zu analysieren oder aus unstrukturierten Quellen zu synthetisieren.
Datenwissenschafts-Benchmarks (z. B. SQuAD, Spider) arbeiten meist mit statischen, hochstrukturierten Datensätzen (CSVs, Datenbanken) und ignorieren den gesamten Workflow der Datenerfassung im Web.
Die Lücke: Reale Datenwissenschaftler müssen autonom im Web navigieren, Daten von heterogenen Quellen (strukturierte Portale, unstrukturierte Nachrichten, Grafiken) sammeln, bereinigen, analysieren und in zusammenfassende Berichte oder Handlungen umwandeln. Aktuelle Modelle scheitern an diesem „End-to-End"-Workflow, da sie Schwierigkeiten mit langfristiger Planung, Kontextverständnis und der Integration verschiedener Tools haben.

2. Methodik: Der WebDS-Benchmark

Die Autoren stellen WebDS vor, den ersten umfassenden End-to-End-Benchmark für webbasierte Datenwissenschaft.

Datensatz: Der Benchmark umfasst 870 menschlich verfasste Aufgaben auf 29 verschiedenen Websites, die sich über 10 hochrelevante Domänen erstrecken (z. B. Gesundheitswesen, Wirtschaft, Demografie, Bildung, Wissenschaft).
Aufgabenformulierung: Eine Aufgabe wird als Abbildung definiert, bei der ein Agent in einer Browser-Umgebung ( $W$ ) eine natürliche Sprachanfrage ( $Q$ ) erhält, um Rohdaten ( $D$ ) zu extrahieren, diese in ein analytisches Ergebnis ( $Y$ , z. B. Bericht, Visualisierung) zu transformieren und optional eine Handlung ( $A$ ) auszuführen.
Aufgabenattribute: Die Aufgaben sind vielfältig und beinhalten:
- QA vs. Action: Beantwortung von Fragen vs. Durchführung von Aktionen (z. B. Posten auf Reddit).
- Hop-Anzahl: Single-hop (eine Quelle) vs. Multi-hop (Kombination mehrerer Quellen).
- Datenstruktur: Strukturierte Daten (Tabellen, CSVs) vs. unstrukturierte Daten (Text, Grafiken, Multimodal).
- Tool-Nutzung: Einsatz von Python, SQL, Wolfram Alpha etc.
- Multi-Website: Aufgaben, die den Wechsel zwischen verschiedenen Domänen erfordern.
Zwei Evaluierungs-Tracks:
1. WebDS-live: Interaktion mit echten, sich ändernden Websites (hohe Realitätsnähe, aber Reproduzierbarkeits-Herausforderungen).
2. WebDS-dockerized: Containerisierte Versionen der Websites mit eingefrorenem Zustand für vollständige Reproduzierbarkeit und stabile Langzeitvergleiche.
Evaluierungs-Metriken:
- Automatisiert: Binäres „Success/Fail" für Aufgaben mit klaren Ground-Truths.
- Subjektiv (LLM-as-a-Judge): Eine detaillierte 1–5-Skala, die nicht nur das Endergebnis, sondern den gesamten Pfad (Trajektorie), die Qualität der Begründung und die Fehleranalyse bewertet.
- Human Baseline: Menschliche Teilnehmer mit Datenwissenschaftserfahrung wurden unter denselben Bedingungen getestet.

3. Wichtige Beiträge

Umfassende Task-Suite: WebDS ist der erste Benchmark, der Multihop-Reasoning, strukturierte/unstrukturierte Daten, Web-Navigation, QA, Multi-Site-Interaktionen und Tool-Nutzung in einem einzigen Framework vereint.
Realistische End-to-End-Evaluierung: Es wird erstmals der gesamte Datenwissenschaftsprozess (Suchen -> Analysieren -> Visualisieren/Berichten) bewertet, nicht nur isolierte Schritte.
Granulare und reproduzierbare Bewertung: Durch die Kombination von Live- und Docker-Tracks sowie feingranularen Metriken (Subtask-Erfolg, Tool-Nutzung, Reasoning-Qualität) ermöglicht WebDS tiefgehende Fehleranalysen.

4. Ergebnisse

Die Evaluierung aktueller State-of-the-Art (SOTA) Modelle zeigt massive Leistungslücken:

Leistung der Modelle:
- BrowserUse (GPT-4o): Erreicht auf dem etablierten Benchmark WebVoyager eine Erfolgsrate von ca. 80–89 %, fällt aber auf WebDS auf nur 12,9–13,2 % zurück.
- AgentOccam: Auf WebArena bei 45,7 %, auf WebDS nur bei 4,8 %.
- Bestes Modell: BrowserUse mit GPT-5.1 erreicht immerhin 22,2 %, bleibt aber weit hinter menschlichen Fähigkeiten zurück.
- Interessante Beobachtung: Eine reine Vergrößerung der Modellkapazität (z. B. GPT-4o vs. GPT-4o-mini oder Qwen2.5-72B) führt nicht zwangsläufig zu besseren Ergebnissen. Das Problem liegt oft in der Schnittstelle zwischen Reasoning und Interaktion (UI-Handling).
Human-Agent Gap: Menschliche Teilnehmer erreichen eine Erfolgsrate von 90 % (±3 %). Dies zeigt eine Lücke von über 75 Prozentpunkten zu den besten KI-Agenten.
Fehleranalyse (Failure Modes):
- Groundedness (40,2 %): Der häufigste Fehler. Der Agent findet die richtigen Daten, extrahiert sie aber falsch, ignoriert sie oder halluziniert Fakten, die nicht im Dokument stehen.
- Query Interpretation (28,8 %): Missverständnis der Benutzerabsicht (z. B. qualitative Antwort statt geforderter numerischer Zahl).
- Effort Allocation: Zu frühes Aufgeben schwieriger Teilaufgaben oder Nutzung unzuverlässiger Quellen als Abkürzung.
- Failed Repetition: Der Agent wiederholt fehlerhafte Aktionen (z. B. Filter setzen), ohne den UI-Status zu überprüfen.

5. Bedeutung und Ausblick

WebDS markiert einen Paradigmenwechsel in der Evaluierung von KI-Agenten:

Realitätscheck: Es zeigt, dass aktuelle Modelle zwar einfache Web-Aufgaben lösen können, aber noch weit davon entfernt sind, komplexe, mehrstufige Datenwissenschaftsworkflows autonom zu bewältigen.
Forschungsrichtung: Der Erfolg hängt weniger von der Skalierung der Modellgröße ab, sondern von der Verbesserung der Kontrollmechanismen, der Fehlerkorrektur (Loop-Breaking), der Grounding-Fähigkeit (Verknüpfung von Wissen mit Beobachtungen) und der Tool-Integration.
Zukunft: WebDS bietet eine robuste, „evergreen"-Plattform, um zukünftige Fortschritte bei praktisch nutzbaren, webbasierten Datenwissenschafts-Agenten zu messen und die Lücke zur menschlichen Leistung zu schließen.

Zusammenfassend etabliert WebDS einen neuen Goldstandard für die Bewertung von Agenten, die nicht nur „surfen", sondern echte Datenanalyse und Entscheidungsfindung im offenen Web durchführen müssen.

WebDS: An End-to-End Benchmark for Web-based Data Science

🌍 Die große Herausforderung: Vom „Suchen" zum „Verstehen"

🚀 Die Lösung: WebDS (Der neue Prüfungsraum)

📉 Das schockierende Ergebnis: Die KI stolpert

👨‍💻 Der Mensch im Vergleich

🔍 Was lernen wir daraus?

🎯 Fazit

1. Problemstellung

2. Methodik: Der WebDS-Benchmark

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction