Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie betreten eine riesige, chaotische Bibliothek, die aus Millionen von Tabellen besteht – eine Bibliothek, die alle Daten der Welt enthält. Sie wollen eine Frage beantworten, zum Beispiel: „Wie war das Wetter?"

In der aktuellen Welt der KI und Datenanalyse behandeln Computer diese Frage oft wie einen strengen Bibliothekar, der schreit: „Das ist zu ungenau! Welche Stadt? Welches Jahr? Welche Temperatur? Gehen Sie weg!"

Dieses Papier von Daniel Gomm und Kollegen sagt jedoch: Halt! Wir stellen die falschen Fragen.

Hier ist die einfache Erklärung der Kernideen, verpackt in alltägliche Bilder:

1. Das Missverständnis: Unschärfe ist kein Fehler, sondern ein Signal

Bisher haben Forscher gedacht, wenn ein Nutzer eine ungenaue Frage stellt (z. B. nur „Wie war das Wetter?" statt „Wie war der Durchschnittstemperatur im Sommer 2023 in Berlin?"), dann ist der Nutzer ungeschickt oder die KI ist dumm. Man versucht, die „Fehler" der Nutzer zu reparieren.

Die neue Idee: Die Unschärfe ist eigentlich eine kooperative Geste.
Stellen Sie sich vor, Sie bestellen Pizza. Sie sagen: „Ich hätte gerne eine Pizza." Sie sagen nicht: „Ich möchte eine Pizza mit 200g Mozzarella, 50g Tomatensauce, 30g Pilzen und einem 30cm großen Teig, gebacken bei 220 Grad für 12 Minuten."
Warum? Weil Sie dem Pizzabäcker (dem System) vertrauen, dass er weiß, was eine „normale" Pizza ist. Sie überlassen ihm die Details. Das ist keine Faulheit, das ist Arbeitsteilung.

Kooperative Fragen: Der Nutzer gibt das Ziel vor („Wetter in Kopenhagen im Sommer"), und das System nutzt gesunden Menschenverstand, um die Lücken zu füllen (Sommer = Juni-August, Durchschnitt = Mittelwert).
Unkooperative Fragen: Der Nutzer sagt nur „Wetter?". Das System kann nicht raten, ob Sie Kopenhagen, New York oder den Mars meinen. Hier fehlt die Basis für Zusammenarbeit.

2. Das Problem mit den Prüfungen (Benchmarks)

Die Forscher haben 15 verschiedene „Prüfungen" (Datensätze) analysiert, mit denen man KI-Systeme testet. Sie stellten fest, dass diese Prüfungen völlig verrückt sind:

Der „Geheimwissen"-Trick: Viele Fragen in diesen Tests enthalten Hinweise, die ein normaler Mensch in der echten Welt gar nicht haben würde.
- Beispiel: Eine Frage lautet: „Wie viel Umsatz hatte die Spalte order_id_729?"
- Das Problem: Ein normaler Mensch weiß nicht, dass es eine Spalte namens order_id_729 gibt. Er würde fragen: „Wie viel Umsatz hatte die Bestellung Nummer 729?" Die KI lernt also, nicht mit Menschen zu sprechen, sondern mit Datenbank-Programmierern zu reden.
Der „Einzigartige Antwort"-Trick: Die Tests verlangen oft nur eine einzige, exakte Antwort. Aber in der echten Welt gibt es oft mehrere gute Antworten. Wenn ich frage: „Was ist die Beziehung zwischen X und Y?", könnte das System entweder eine Korrelation oder eine Regression berechnen. Beide sind richtig. Die Tests bestrafen die KI aber, wenn sie eine andere „richtige" Wahl trifft als der Test-Ersteller.

Die Metapher: Es ist, als würde man einen Koch testen, indem man ihm sagt: „Mach eine Suppe." Wenn er eine Tomatensuppe macht, aber der Test erwartet eine Karottensuppe, weil der Test-Ersteller Karotten in der Schüssel hatte, die der Koch nicht sehen konnte, dann besteht der Koch die Prüfung nicht. Das ist unfair.

3. Die Lösung: Wir müssen neu lernen, wie wir testen und bauen

Die Autoren schlagen vor, die Welt der Datenanalyse neu zu denken:

Unterscheidung schaffen: Wir müssen Tests trennen.
- Willen wir testen, ob die KI rechnet kann? Dann geben wir ihr eine klare, unmissverständliche Frage (wie eine exakte Rezeptur).
- Willen wir testen, ob die KI „denkt" und gute Entscheidungen trifft? Dann geben wir ihr eine kooperative, etwas vage Frage und prüfen, ob ihre Annahmen (z. B. „Sommer bedeutet Juni-August") vernünftig sind.
Dialog statt Monolog: Anstatt dass die KI raten muss oder sofort abbricht, sollte sie zurückfragen.
- Statt: „Fehler: Unbekannte Stadt."
- Besser: „Ich habe hier Daten für Kopenhagen und Berlin. Meinten Sie eine davon?"
Offene Welt: Wir müssen Systeme bauen, die mit unvollständigem Wissen umgehen können, ohne zu scheitern. Sie sollen wie ein guter Assistent sein, der weiß, wann er nachhaken muss und wann er einfach eine vernünftige Annahme trifft.

Fazit

Dieses Papier sagt uns: Hören wir auf, die KI dafür zu bestrafen, dass Menschen natürlich sprechen.

Menschen sind nicht perfekt in der Formulierung von Datenfragen. Wir verlassen uns darauf, dass das System mitdenkt. Wenn wir das System so bauen, dass es diese Zusammenarbeit (Kooperation) versteht, statt es wie einen strengen Lehrer zu behandeln, der nur eine einzige „richtige" Antwort kennt, werden wir viel bessere und nützlichere Daten-Assistenten haben.

Kurz gesagt: Lassen Sie die KI mitdenken, statt sie nur auswendig lernen zu lassen.

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

1. Das Missverständnis: Unschärfe ist kein Fehler, sondern ein Signal

2. Das Problem mit den Prüfungen (Benchmarks)

3. Die Lösung: Wir müssen neu lernen, wie wir testen und bauen

Fazit

1. Problemstellung

2. Methodik und Rahmenwerk

A. Das Kooperations-Framework (Cooperative Interaction Framework)

B. Grounding-Mechanismen

C. Empirische Analyse

3. Wichtige Ergebnisse

4. Schlüsselbeiträge

5. Signifikanz und Implikationen

Are We Asking the Right Questions? On Ambiguity in Natural Language Queries for Tabular Data Analysis

1. Das Missverständnis: Unschärfe ist kein Fehler, sondern ein Signal

2. Das Problem mit den Prüfungen (Benchmarks)

3. Die Lösung: Wir müssen neu lernen, wie wir testen und bauen

Fazit

1. Problemstellung

2. Methodik und Rahmenwerk

A. Das Kooperations-Framework (Cooperative Interaction Framework)

B. Grounding-Mechanismen

C. Empirische Analyse

3. Wichtige Ergebnisse

4. Schlüsselbeiträge

5. Signifikanz und Implikationen

Mehr davon

The Moral Foundations Reddit Corpus

Automated stance detection in complex topics and small languages: the challenging case of immigration in polarizing news media

BioMamba: Domain-Adaptive Biomedical Language Models

Multilingual LLMs Struggle to Link Orthography and Semantics in Bilingual Word Processing

Byte-token Enhanced Language Models for Temporal Point Processes Analysis