Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der Forschungspapiere, als würde man sie einem Freund beim Kaffee erklären:

Das Problem: Der perfekte Koch in einer riesigen Küche

Stellen Sie sich vor, Sie haben einen Super-Koch (das ist der KI-Agent, der aus Ihrer Sprache SQL-Befehle macht). Bisher haben wir diesen Koch nur in einer kleinen, gemütlichen Küchenzeile getestet. Dort war das wichtigste Kriterium: Ist das Gericht schmackhaft? (Also: Ist die Datenbankabfrage korrekt?).

Wenn der Koch ein Gericht mit einem zu großen Stück Petersilie serviert, war das in der kleinen Küche kein Problem. Man hat es einfach weggeschnitten und fertig.

Aber: In der echten Welt arbeiten diese KIs nicht in kleinen Küchen, sondern in riesigen Industrieküchen (Big Data), die ganze Berge von Zutaten verarbeiten. Hier ändert sich alles:

Fehler sind teuer: Wenn der Koch einen Befehl gibt, der versehentlich alle Zutaten des Lagers durchsucht statt nur ein paar, kostet das nicht nur Zeit, sondern eine riesige Summe Geld. Ein kleiner Fehler im Rezept führt zu einer riesigen Rechnung.
Zeit ist Geld: Wenn der Koch erst 10 Minuten lang überlegt, welches Messer er nimmt, bevor er überhaupt schneidet, während die Suppe schon kocht, ist das System ineffizient.

Die Forscher sagen: "Beide Enden zählen!" Es reicht nicht zu prüfen, ob das Gericht schmeckt (korrekte SQL-Abfrage). Man muss auch prüfen, wie viel es gekostet hat, wie lange der Koch gebraucht hat, um das Messer zu finden, und ob wir unnötig viele Zutaten verschwendet haben.

Die neue Messlatte: Nicht nur "Richtig oder Falsch"

Bisher haben wir den Koch nur mit einem Ja/Nein-Test bewertet: "Ist das Essen fertig? Ja/Nein."
Das ist für Big Data zu dumm.

Die Forscher schlagen neue Messinstrumente vor:

Der "Überfluss-Messer": Wenn der Koch Ihnen ein Gericht serviert, das genau das Richtige enthält, aber auch noch 5 unnötige Gewürze, ist es in der kleinen Küche "Richtig". In der großen Küche ist es aber "Verschwendung". Die neuen Metriken bestrafen diese unnötigen Extras, weil sie Rechenleistung kosten.
Der "Gesamtkosten-Rechner": Nicht nur die Zeit, die der Koch am Herd steht, zählt. Auch die Zeit, die er mit dem Suchen von Werkzeugen verbringt (die Interaktion mit dem Agenten), wird berechnet.
Der "Wiederholungs-Faktor": Wenn der Koch oft das falsche Gericht kocht, müssen Sie es wiederholen. Bei kleinen Mengen ist das egal. Bei riesigen Datenmengen kostet jedes Wiederholen Tausende von Euro.

Was haben sie herausgefunden? (Die Überraschungen)

Die Forscher haben die besten aktuellen KI-Modelle (wie GPT-4, Claude, Gemini) getestet. Hier sind die überraschenden Ergebnisse:

Der "Langsame Perfektionist": Ein KI-Modell (Claude Opus) war extrem genau und kochte fast immer das perfekte Gericht. Aber es war so langsam beim Überlegen und Suchen von Werkzeugen, dass es in der Praxis zu teuer wurde. Es war wie ein Koch, der 2 Stunden lang überlegt, wie man ein Ei kocht.
Der "Schnelle Sparschwein": Ein anderes Modell (Gemini Flash) war vielleicht nicht zu 100 % perfekt, aber es war blitzschnell und extrem günstig. In der großen Küche war es oft die bessere Wahl, weil die Ersparnis die kleinen Fehler aufwog.
Die Größe macht den Unterschied: Bei kleinen Datenmengen (kleine Küche) war die Genauigkeit des Kochs das Wichtigste. Bei riesigen Datenmengen (Industrieküche) wurde die Geschwindigkeit und der Preis zum entscheidenden Faktor. Ein kleiner Fehler in der Genauigkeit wurde bei großen Datenmengen zu einem finanziellen Desaster.

Die große Erkenntnis

Die Welt der KI-Datenbanken hat sich verändert. Wir können nicht mehr nur sagen: "Die KI versteht die Sprache gut." Wir müssen fragen: "Wie effizient und kostengünstig ist die KI, wenn sie mit echten, riesigen Datenmengen arbeitet?"

Es geht nicht mehr nur darum, ob die KI kann, sondern ob sie wirtschaftlich ist. Die Forscher haben damit ein neues Regelwerk geschaffen, das nicht nur den Koch lobt, sondern auch die Rechnung prüft.

Kurz gesagt: In der Welt der großen Datenmengen zählt nicht nur das Ergebnis, sondern auch der Preis, den wir dafür zahlen müssen, um dorthin zu kommen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Both Ends Count! Just How Good are LLM Agents at Text-to-'Big SQL'?" auf Deutsch:

1. Problemstellung

Das Paper adressiert eine signifikante Lücke in der aktuellen Forschung zu Text-to-SQL und Big Data. Während Text-to-SQL-Systeme und Big-Data-Workflows separat intensiv bewertet werden, fehlt es an Forschung, die beide Bereiche gemeinsam betrachtet („Text-to-Big SQL").

Die Diskrepanz: Herkömmliche Text-to-SQL-Benchmarks (wie Spider oder BIRD) konzentrieren sich auf kleine bis mittlere relationale Datenbanken und bewerten primär die semantische Korrektheit der generierten SQL-Abfrage (z. B. durch „Exact Matching" oder „Execution Accuracy").
Das Big-Data-Problem: In Big-Data-Umgebungen (z. B. Amazon Athena, Spark) haben Fehler in der SQL-Generierung weitreichendere Konsequenzen als in kleinen Datenbanken:
- Kosten: Ein falscher Query kann massive Datenmengen scannen und zu hohen Cloud-Kosten führen.
- Latenz: Selbst korrekte Abfragen können ineffizient sein (z. B. unnötige Spalten, schlechte Joins), was bei großen Datenmengen die Interaktivität zerstört.
- Agenten-Overhead: Der Prozess der SQL-Generierung durch LLM-Agenten (mit Tools wie Schema-Inspektion) fügt Latenz hinzu. Wenn die Generierung langsamer ist als die eigentliche Query-Ausführung, ist das System für interaktive Analysen unbrauchbar.
Fazit: Herkömmliche Metriken ignorieren Kosten, Latenz und die Skalierbarkeitseffekte, was zu einer falschen Einschätzung der Leistungsfähigkeit von LLM-Agenten in Produktionsumgebungen führt.

2. Methodik

Die Autoren führen eine umfassende Evaluierung von State-of-the-Art LLM-Agenten durch, um ein neues Bewertungsframework zu etablieren.

Agenten-Architektur: Es wird ein ReAct-Agent (Reasoning + Acting) verwendet, der auf LangGraph und Spark SQL basiert. Der Agent nutzt vier Tools:
1. list_tables: Tabellen auflisten.
2. get_schema: Schemata und Beispieldaten abrufen.
3. check_query: Syntaxprüfung (durch einen LLM-Checker).
4. run_query: Ausführung der SQL-Abfrage im Spark-Cluster.
- Design-Entscheidung: Der Agent wird nach der ersten Ausführung gestoppt, um endlose Schleifen und damit verbundene Kosten in Big-Data-Systemen zu vermeiden.
Benchmarks:
- BIRD: Für Text-to-SQL-Genauigkeit (realistische Datenbanken).
- TPC-H: Für Big-Data-Skalierbarkeit (deterministische Skalierung der Datenmenge über Skalierungsfaktoren SF 10 bis SF 1000).
Modelle: Es wurden führende LLMs (GPT-4o, GPT-5, Claude Opus 4.5/4.6, Gemini 3 Flash/Pro, etc.) in einem Zero-Shot-Setting evaluiert, um den reinen Einfluss der Modellarchitektur ohne Feinabstimmung zu messen.

3. Schlüsselbeiträge & Neue Metriken

Der Hauptbeitrag des Papers ist die Einführung neuer Metriken, die sowohl die Generierung (Agent-Interaktion) als auch die Ausführung (Big-Data-Engine) berücksichtigen.

A. Erweiterung der Genauigkeitsmetrik (VES*)

Die Autoren erweitern den bestehenden Valid Efficiency Score (VES) um die Berücksichtigung überflüssiger Spalten:

Problem: Herkömmliche Metriken bewerten einen Query mit einer zusätzlichen, unnötigen Spalte als komplett falsch. In Big Data ist dies jedoch oft akzeptabel (da Spalten leicht entfernt werden können), aber kostspielig.
Lösung: Einführung einer Spalten-Precision ( $P$ ), die den Anteil relevanter Spalten misst.
Formel VES:* Kombiniert die binäre Korrektheit, die Spalten-Precision und das Verhältnis der Gold-Query-Laufzeit zur End-to-End-Laufzeit (e2e).
$VES^* = \frac{1}{N} \sum \left( \mathbb{1}(V, \hat{V}) \cdot P(S, \hat{S}) \cdot \frac{T_{gold}}{T_{e2e}} \right)$

B. Kostenmetriken (VCES & CVQ)

VCES (Valid Cost-Efficiency Score): Eine kostenorientierte Ableitung von VES*, die die Token-Kosten des LLMs und die Ausführungskosten der Query im Big-Data-System einbezieht.
CVQ (Expected Cost per Valid Query): Quantifiziert die erwarteten Kosten, um ein valides Ergebnis zu erhalten, unter Berücksichtigung der Wahrscheinlichkeit von Fehlern (Retry-Strategie). Dies ist entscheidend, da bei großen Datenmengen ein einziger Fehler exponentiell teurer wird.

4. Ergebnisse

Die Evaluierung zeigt deutliche Unterschiede zwischen herkömmlichen Text-to-SQL-Metriken und den neuen Text-to-Big-SQL-Metriken:

Genauigkeit ist nicht genug: Modelle mit ähnlicher Genauigkeit (z. B. GPT-4o vs. Claude Opus 4.6) unterscheiden sich massiv in Latenz und Kosten. Opus 4.6 erreicht zwar perfekte Genauigkeit, ist aber fast doppelt so langsam wie GPT-4o.
Diskriminierungsfähigkeit: Die Metrik VES* kann Modelle viel besser unterscheiden als reines VES. Sie belohnt Modelle, die nicht nur korrekt, sondern auch effizient in der Agenten-Interaktion sind und keine überflüssigen Spalten generieren.
Kosten vs. Latenz Trade-off:
- Gemini 3 Flash ist aufgrund niedriger Token-Kosten die kosteneffizienteste Wahl, auch wenn es etwas langsamer ist.
- GPT-4o ist in der Latenz führend, aber aufgrund höherer Token-Kosten und geringerer Genauigkeit in bestimmten Szenarien teurer pro validem Query.
Skalierungseffekte (TPC-H):
- Bei kleinen Datenmengen dominiert die Latenz des LLM-Agenten die Gesamtzeit.
- Bei großen Datenmengen (SF 1000) dominiert die Query-Ausführungszeit.
- Kritischer Befund: Ein kleiner Genauigkeitsunterschied (z. B. 10 %) führt bei großen Datenmengen zu einem massiven Anstieg der Kosten (CVQ), da fehlerhafte Queries teure Ressourcen verschwenden. Herkömmliche Metriken (VES) zeigen hier keine Differenzierung, während CVQ das Risiko korrekt abbildet.

5. Bedeutung und Ausblick

Das Paper etabliert den Begriff „Text-to-Big SQL" als eigenständiges Forschungsfeld.

Praktische Relevanz: Es zeigt, dass für Produktionsumgebungen in der Cloud nicht nur die „richtige" SQL-Abfrage zählt, sondern das gesamte Ökosystem aus Agenten-Overhead, Token-Kosten und Ausführungskosten.
Zukünftige Forschungsrichtungen:
- Strategische Modellzuweisung: Nutzung verschiedener Modelle für verschiedene Agenten-Phasen (z. B. schnelles Modell für Schema-Check, billiges Modell für einfache Checks).
- Optimierung für Skalierung: Text-to-SQL-Systeme müssen Abfragen generieren, die auch bei großen Datenmengen kosteneffizient sind (Vermeidung unnötiger Joins/Shuffles).
- Approximative Abfragen: Integration von Mechanismen, die bei großen Datenmengen Genauigkeit gegen Performance tauschen (Sampling, Sketches).
- UDF-Integration: Unterstützung von benutzerdefinierten Funktionen, die über reines SQL hinausgehen.

Zusammenfassend argumentieren die Autoren, dass die aktuelle Bewertung von LLM-Agenten für Datenbanken veraltet ist. Um echte interaktive Big-Data-Analysen zu ermöglichen, müssen Benchmarks sowohl die „Ende der Generierung" (Agenten-Latenz/Kosten) als auch das „Ende der Ausführung" (Datenmenge/Kosten) gemeinsam bewerten.

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Das Problem: Der perfekte Koch in einer riesigen Küche

Die neue Messlatte: Nicht nur "Richtig oder Falsch"

Was haben sie herausgefunden? (Die Überraschungen)

Die große Erkenntnis

1. Problemstellung

2. Methodik

3. Schlüsselbeiträge & Neue Metriken

A. Erweiterung der Genauigkeitsmetrik (VES*)

B. Kostenmetriken (VCES & CVQ)

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance