Each language version is independently generated for its own context, not a direct translation.
🌍 Die große Herausforderung: Vom „Suchen" zum „Verstehen"
Stellen Sie sich vor, ein KI-Modell (ein „Agent") ist wie ein sehr schneller, aber manchmal etwas verwirrter Büroangestellter, der gerade erst eingestellt wurde.
Bisher haben wir diesen Angestellten nur in kleinen, sicheren Übungsräumen getestet:
- Frühere Tests (Web-Benchmarks): Wir sagten ihm: „Geh zur Buchhandlung und kaufe ein rotes Buch." Das war einfach. Der Angestellte musste nur ein paar Schritte gehen und eine Tür öffnen.
- Frühere Daten-Tests (Data Science Benchmarks): Wir gaben ihm einen fertigen Excel-Tisch und sagten: „Berechne die Summe." Auch das war einfach, weil die Daten schon da waren.
Das Problem: In der echten Welt ist Datenwissenschaft viel chaotischer. Ein echter Analyst muss erst ins Internet gehen, durch 10 verschiedene Webseiten wandern (manche sind wie alte Bibliotheken, manche wie moderne Apps), Daten aus verschiedenen Quellen zusammenflicken, sie säubern, analysieren und am Ende einen Bericht schreiben.
Bisherige KI-Tests haben diesen „echten" Arbeitsalltag nicht geprüft.
🚀 Die Lösung: WebDS (Der neue Prüfungsraum)
Die Autoren haben WebDS entwickelt. Man kann sich das wie einen großen, realistischen Labyrinth-Simulator vorstellen, der speziell für Daten-Analysten gebaut wurde.
- Das Szenario: Statt nur ein Buch zu kaufen, muss der KI-Agent jetzt Aufgaben lösen wie: „Finde die Geburtenzahlen aus drei verschiedenen Regierungsseiten, vergleiche sie mit den Statistiken einer Musikplattform, erstelle ein Diagramm und schreibe einen Bericht für den Bürgermeister."
- Die Größe: Es gibt 870 verschiedene Aufgaben auf 29 verschiedenen Webseiten (von Gesundheitsämtern bis zu Sportdaten).
- Der Clou: Die Aufgaben sind „mehrschichtig". Der Agent muss oft von Seite A zu Seite B springen, eine Datei herunterladen, sie in einem Programm öffnen, Zahlen umrechnen und dann entscheiden, was das eigentlich bedeutet.
📉 Das schockierende Ergebnis: Die KI stolpert
Die Forscher haben die besten aktuellen KIs (wie GPT-4o oder Claude) in diesem Simulator getestet. Das Ergebnis war ernüchternd:
- In alten Tests: Diese KIs waren super. Sie schafften 80–90 % der Aufgaben.
- In WebDS: Die KIs fielen auf unter 15 % (manche sogar auf unter 5 %).
Warum? Die KIs scheitern an typischen menschlichen Fehlern, nur dass sie sie als Roboter machen:
- Der „Halluzinations"-Effekt: Die KI liest eine Zahl auf einer Webseite, vergisst sie aber sofort und erfindet eine neue. (Wie wenn ein Angestellter die Zahlen im Kopf verwechselt).
- Der „Stuck"-Effekt: Die KI klickt 50 Mal auf denselben Button, obwohl er gar nicht funktioniert, und gibt nicht auf. (Wie ein Kind, das immer wieder gegen eine geschlossene Tür rennt).
- Der „Abkürzungs"-Effekt: Statt die harte Arbeit zu machen, googelt die KI die Antwort einfach und nimmt eine falsche Wikipedia-Seite, weil sie zu faul ist, die Originaldaten zu prüfen.
👨💻 Der Mensch im Vergleich
Um zu zeigen, wie schwer die Aufgabe wirklich ist, haben echte Menschen (mit Daten-Erfahrung) den gleichen Test gemacht.
- Menschen: Schafften 90 % der Aufgaben.
- KI: Schaffte unter 15 %.
Das zeigt eine riesige Lücke: Unsere KIs sind heute noch nicht in der Lage, komplexe, mehrstufige Datenarbeiten am Computer selbstständig zu erledigen. Sie können gut reden, aber schlecht arbeiten.
🔍 Was lernen wir daraus?
Die Forscher sagen: Wir müssen die KIs nicht nur „dümmer" machen (mehr Daten), sondern sie besser disziplinieren.
- Sie müssen lernen, ihre Arbeit zu überprüfen (Grounding): „Habe ich wirklich die richtige Zahl gelesen?"
- Sie müssen lernen, Fehler zu erkennen: „Der Button hat nicht geklappt, ich muss einen anderen Weg versuchen."
- Sie müssen lernen, Geduld zu haben und nicht einfach abzuschneiden.
🎯 Fazit
WebDS ist wie ein neuer, härterer Führerschein-Test für KIs. Bisher haben sie nur in einer leeren Garage geübt. Jetzt müssen sie im echten Stadtverkehr fahren, mit Staus, Baustellen und unerwarteten Hindernissen.
Die Nachricht ist klar: Wir haben noch einen langen Weg vor uns, bis KIs wirklich als zuverlässige Daten-Analysten eingesetzt werden können. Aber mit diesem neuen Test (WebDS) wissen wir jetzt genau, wo die Schwachstellen liegen und woran wir arbeiten müssen.
Kurz gesagt: Wir haben eine neue, sehr schwierige Prüfung für KIs erstellt, die zeigt, dass sie im echten Daten-Dschungel noch sehr verloren sind – im Gegensatz zu echten Menschen, die dort mühelos zurechtkommen.