An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Das Paper stellt FusionSQL vor, ein effizientes Evaluierungswerkzeug, das die Genauigkeit von Text2SQL-Modellen auf ungelabelten und bisher nicht gesehenen Daten schätzt, indem es Muster in den eigenen Ausgaben analysiert, ohne auf Referenzlabels angewiesen zu sein.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen hochintelligenten Koch (das Text2SQL-Modell) eingestellt. Dieser Koch kann aus normalen Sätzen wie „Zeig mir alle Kunden, die im Sommer Geburtstag haben" perfekte Kochrezepte (SQL-Abfragen) für Ihre Datenbankküche erstellen.

Bisher gab es ein riesiges Problem: Wenn Sie diesen Koch in eine neue Küche versetzen wollen (eine neue Datenbank mit neuen Regeln), mussten Sie ihm vorher eine riesige Liste mit „richtigen" Rezepten geben, um zu testen, ob er funktioniert. Aber oft gibt es diese Liste nicht, weil die Datenbank neu ist, die Daten geheim sind oder das Erstellen dieser Liste zu teuer und zeitaufwendig ist.

Es ist, als würden Sie einen Koch einstellen, ohne ihm je eine neue Speisekarte zu zeigen, und trotzdem wissen wollen: „Kann er heute Abend kochen, ohne dass wir alles vorher probieren?"

Hier kommt FusionSQL ins Spiel.

Was ist FusionSQL? (Der „Koch-Check" ohne Probieren)

FusionSQL ist wie ein genialer Lebensmittelinspektor, der nicht schmecken muss, um zu wissen, ob der Koch gut ist. Er braucht keine fertigen Rezepte (keine „Labels"), um die Leistung vorherzusagen.

Statt zu fragen: „Ist das Rezept richtig?", schaut sich FusionSQL an:

  1. Wie ähnlich ist die neue Küche der alten? (Sind die Töpfe gleich? Sind die Zutaten ähnlich?)
  2. Wie sehr unterscheidet sich die neue Speisekarte von der alten?

Wie funktioniert das? (Die drei Werkzeuge des Inspektors)

Stellen Sie sich vor, der Koch hat in seiner alten Küche (Trainingsdaten) gelernt, wie man mit bestimmten Töpfen umgeht. FusionSQL nutzt drei spezielle Werkzeuge, um zu messen, wie „fremd" die neue Küche ist:

  1. Der globale Kompass (SDF):
    Dieser misst den allgemeinen „Vibe" der Küche. Ändert sich alles ein bisschen? Geht es von einfachen Suppen (einfache Tabellen) zu riesigen Buffet-Stationen mit vielen Verbindungen (komplexe Joins)? Wenn der Koch plötzlich in einer völlig anderen Umgebung arbeitet, zeigt der Kompass eine große Verschiebung an.

  2. Der Späher für die Ecken (SDM):
    Dieser sucht nach den „seltsamen" Fällen. Gibt es Zutaten, die der Koch noch nie gesehen hat? Oder Fragen, die so komisch formuliert sind, dass sie ihn verwirren könnten? FusionSQL achtet besonders auf diese seltenen, potenziell problematischen Fälle, die oft zu Fehlern führen.

  3. Der Form-Scanner (SDSW):
    Dieser prüft die „Form" der Aufgaben. Wenn die Fragen plötzlich ganz anders aufgebaut sind (z. B. statt „Zeig mir X" plötzlich „Vergleiche X mit Y"), erkennt dieser Scanner die strukturelle Veränderung, selbst wenn die Wörter ähnlich klingen.

Das Geheimnis: Die „Super-Datenbank" (FusionDataset)

Damit dieser Inspektor (FusionSQL) so gut ist, hat er in einer riesigen, künstlich geschaffenen „Übungsküche" trainiert, die FusionDataset heißt.

  • Diese Übungsküche ist riesig (über 3 Millionen Beispiele!).
  • Sie enthält alles: von einfachen Tabellen bis zu extrem komplexen Verwicklungen.
  • Sie enthält sogar absichtlich verwirrende Fragen (wie „Zeig mir die coolsten Kunden, die auf TikTok viral gegangen sind", obwohl das nichts mit der Datenbank zu tun hat), um den Koch auf echte, chaotische Situationen vorzubereiten.

Dadurch hat FusionSQL gelernt: „Wenn sich die Küche so und so verändert, dann sinkt die Erfolgschance des Kochs um genau diesen Betrag."

Warum ist das so wichtig?

  • Kein Warten auf Labels: Firmen müssen nicht monatelang warten, bis jemand manuell alle Antworten überprüft hat. Sie können sofort testen, ob ihr System bereit ist.
  • Frühwarnsystem: FusionSQL kann sagen: „Achtung! In dieser neuen Datenbank wird dein System wahrscheinlich schlechter funktionieren, weil die Struktur zu anders ist." So können Probleme gefunden werden, bevor sie Kunden stören.
  • Schnell und günstig: Es ist viel schneller als das Ausprobieren mit einem zweiten KI-Modell (einem „Richter"), das jede einzelne Antwort prüfen müsste.

Zusammenfassung in einer Metapher

Stellen Sie sich vor, Sie mieten ein Auto für eine Reise in ein unbekanntes Land.

  • Der alte Weg: Sie fahren erst los, machen 1000 Kilometer, stoppen an jeder Kreuzung, schauen auf eine Landkarte (die „Labels") und prüfen, ob Sie richtig liegen. Das kostet Zeit und Benzin.
  • Der FusionSQL-Weg: Sie schauen sich nur die Landkarte des Ziellandes an, vergleichen sie mit dem Land, in dem Sie gelernt haben zu fahren, und sagen sofort: „Hey, die Straßen sind hier viel enger und die Schilder sind anders. Du wirst wahrscheinlich 15 % langsamer fahren müssen."

Sie müssen nicht erst losfahren, um es zu wissen. FusionSQL gibt Ihnen diese Vorhersage sofort, kostenlos und ohne dass Sie das Auto (das Modell) neu bauen müssen.

Fazit: FusionSQL ist ein cleverer, schneller und label-freier Helfer, der Unternehmen hilft, ihre KI-Datenbank-Assistenten sicher in die reale Welt zu entlassen, ohne stundenlang manuell nach Fehlern suchen zu müssen.