SQaLe: A Large Text-to-SQL Corpus Grounded in Real Schemas

Die Arbeit stellt SQaLe vor, ein groß angelegtes, halb-synthetisches Text-zu-SQL-Datenset, das auf 135.875 realen Schemata basiert und durch eine prinzipielle Generierungspipeline 517.676 hochwertige (Frage, Schema, Abfrage)-Triples erzeugt, um die Entwicklung generalisierbarer Modelle durch realistische Komplexität und Vielfalt zu fördern.

Cornelius Wolff, Daniel Gomm, Madelon Hulsebos

Veröffentlicht 2026-02-27
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, chaotischen Bibliothekskeller voller alter Bücher (das sind die Datenbanken). Du möchtest eine Frage stellen, zum Beispiel: „Wie viele Bücher hat der Autor Müller geschrieben, die vor 1990 erschienen sind?" Aber der Bibliothekar (die Datenbank) versteht nur eine sehr strenge, kryptische Geheimsprache (SQL), nicht deine lockere Alltagssprache.

Das Problem bisher: Um einen Computer so zu trainieren, dass er diese Übersetzung von „Mensch" zu „Maschine" perfekt beherrscht, brauchte man bisher nur sehr kleine Übungsbücher. Die waren oft zu einfach, zu künstlich oder deckten nicht genug verschiedene Situationen ab. Es war, als würde man jemanden nur mit einem einzigen Rezeptbuch für Spaghetti trainieren und dann erwarten, dass er ein komplettes Restaurant für internationale Küche leitet.

Hier kommt SQALE ins Spiel.

Was ist SQALE?

SQALE ist wie ein riesiges, ultra-detailliertes Trainingscamp für KI-Modelle, damit sie besser verstehen, wie man natürliche Fragen in Datenbank-Befehle übersetzt.

Die Forscher haben nicht einfach zufällige Sätze erfunden. Stattdessen haben sie einen cleveren Trick angewendet:

  1. Der Fundus: Sie haben einen riesigen Haufen echter, existierender Datenbank-Pläne (SchemaPile) genommen. Das sind die Baupläne von echten Firmen, Krankenhäusern und Behörden.
  2. Die Erweiterung: Mit Hilfe einer starken KI (einem „Koch", der neue Rezepte erfinden kann) haben sie diese echten Pläne erweitert. Sie haben neue Abteilungen, neue Tabellen und neue Verbindungen hinzugefügt, aber immer im Stil der echten Welt.
  3. Die Übung: Für diese riesigen, komplexen Pläne haben sie dann Millionen von Fragen generiert – von „Zeig mir alle Kunden" bis hin zu „Vergleiche die Umsätze aller Filialen, die mehr als 50 Mitarbeiter haben, mit denen aus dem Vorjahr".

Warum ist das so besonders? (Die Analogie)

Stell dir die bisherigen Datensätze wie ein Schulbuch für Grundschüler vor. Die Sätze sind kurz, die Grammatik ist perfekt, und es gibt immer nur eine richtige Antwort.

SQALE ist hingegen wie ein Praktikum in einer echten Großstadt:

  • Echte Größe: Die Datenbanken sind riesig. Während andere Datensätze oft nur 5 bis 10 „Tische" (Tabellen) haben, hat SQALE oft über 90 Tische pro Datensatz. Das ist wie der Unterschied zwischen einem kleinen Dorfladen und einem riesigen Einkaufszentrum.
  • Echte Unordnung: In der echten Welt sind Daten oft unordentlich. Namen sind abgekürzt, Schreibweisen sind gemischt, und manche Verbindungen sind nicht ganz klar. SQALE behält diese „echten Fehler" und Unschärfen bei, damit die KI lernt, damit umzugehen, statt nur perfekte Welten zu kennen.
  • Komplexe Fragen: Die Fragen sind nicht nur „Was ist der Name?". Sie sind wie ein Detektiv-Rätsel, bei dem man viele verschiedene Quellen zusammenführen muss (Join-Operationen), um die Antwort zu finden.

Was haben die Forscher damit erreicht?

Sie haben über 500.000 dieser Trainingspaare (Frage + Datenbankplan + Richtige Antwort) erstellt. Das ist eine Menge, die bisher in diesem Bereich noch nie gesehen wurde.

Der große Vorteil:
Bisher mussten KI-Modelle oft nur auf kleinen, künstlichen Beispielen lernen. SQALE erlaubt es ihnen, sich an der echten Komplexität der Welt zu üben. Es ist, als würde man einen Sportler nicht nur auf einer Laufbahn trainieren, sondern ihn direkt in den Dschungel schicken, um seine Fähigkeiten zu testen.

Fazit

SQALE ist der größte und realistischste „Übungsplatz" für KI-Modelle, die Datenbanken verstehen sollen. Es hilft uns, KI-Systeme zu bauen, die nicht nur einfache Fragen beantworten, sondern uns wirklich dabei helfen, die riesigen Datenmengen unserer modernen Welt zu verstehen – ganz ohne dass wir die geheime Geheimsprache der Datenbanken lernen müssen.

Die Daten sind jetzt für alle zugänglich, damit jeder diese neuen, schlaueren KI-Modelle bauen kann.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →