Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

Die Arbeit stellt Track-SQL vor, ein Framework, das generative Sprachmodelle durch duale extraktive Module zur Verfolgung von Schemata und Kontexten verbessert und damit den State-of-the-Art auf den Multi-Turn-Datensätzen SparC und CoSQL erreicht.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie unterhalten sich mit einem sehr klugen, aber etwas vergesslichen Assistenten, der Zugriff auf eine riesige Bibliothek (die Datenbank) hat. Ihr Ziel ist es, ihm auf Deutsch zu sagen, welche Informationen Sie suchen, und er soll Ihnen die genaue Suchanfrage (den SQL-Befehl) formulieren, um die Antwort zu finden.

Das Problem bei mehreren Gesprächsrunden (Multi-turn) ist, dass der Assistent oft den Faden verliert. Wenn Sie in Runde 1 nach "Autos" fragen und in Runde 2 nur sagen "Wie viele davon sind rot?", muss der Assistent wissen, dass "davon" sich immer noch auf die Autos aus Runde 1 bezieht. Außerdem muss er genau wissen, welche Regale in der Bibliothek (welche Tabellen und Spalten) er jetzt öffnen muss, ohne sich in den tausenden anderen Regalen zu verirren.

Die Autoren dieses Papers haben eine Lösung namens Track-SQL entwickelt. Man kann sich das wie einen zweigleisigen Assistenten-System vorstellen, das dem großen Sprachmodell (dem "Gehirn") hilft, den Überblick zu behalten.

Hier ist die Erklärung der beiden wichtigsten Werkzeuge, die Track-SQL nutzt, mit einfachen Analogien:

1. Der "Scharfe Sucher" (Semantic-enhanced Schema Extractor)

Das Problem: In einer Datenbank gibt es oft tausende Spalten mit kryptischen Namen wie col_1 oder cnt. Wenn Sie fragen: "Zeig mir alle Länder", muss das System wissen, dass es die Tabelle countries und die Spalte name braucht, nicht aber die Tabelle continents oder die Spalte id. Bei langen Gesprächen wird es für das System immer schwieriger, die richtigen "Regale" auszuwählen, ohne unnötiges "Kram" mitzubringen.

Die Lösung: Track-SQL nutzt einen speziellen Filter, den wir den "Scharfen Sucher" nennen können.

  • Wie er funktioniert: Bevor der Assistent die eigentliche Antwort formuliert, schaut dieser Sucher sich Ihre Frage an und vergleicht sie mit den Regalbeschriftungen der Bibliothek.
  • Der Clou: Er nutzt eine Art "Übersetzer" (ein großes KI-Modell), um die kryptischen Datenbanknamen in verständliche Beschreibungen zu verwandeln. Wenn in der Datenbank eine Spalte cnt heißt, weiß der Sucher durch den Übersetzer, dass es sich um "Continent Name" (Kontinentname) handelt.
  • Das Ergebnis: Er streicht alles Unwichtige weg und reicht dem Assistenten nur die genau richtigen Regale weiter. Das verhindert, dass der Assistent verwirrt wird und falsche Daten mischt.

2. Der "Erinnerungs-Manager" (Schema-aware Context Extractor)

Das Problem: In einem langen Gespräch beziehen sich neue Fragen oft auf alte. Wenn Sie sagen "Und was ist mit denen?", muss das System wissen, auf welche "Dinge" Sie sich beziehen. Oft ist die aktuelle Frage ohne den Kontext der vorherigen Fragen unsinnig.

Die Lösung: Hier kommt der "Erinnerungs-Manager" ins Spiel.

  • Wie er funktioniert: Dieser Manager durchsucht den gesamten bisherigen Chatverlauf. Er sucht nicht nur nach ähnlichen Wörtern, sondern schaut sich an: "Welche Suchanfrage (SQL) haben wir in der letzten Runde gestellt, die am ehesten zu dieser neuen Frage passt?"
  • Der Clou: Er holt sich die Basis der vorherigen Antwort (den "Base SQL") und legt sie als Fundament unter die neue Frage. Es ist, als würde der Assistent sagen: "Ah, du wolltest gestern die roten Autos sehen. Da du jetzt nach 'davon' fragst, bauen wir die neue Suche direkt auf der Liste der roten Autos auf, statt von vorne anzufangen."
  • Das Ergebnis: Der Assistent muss das Rad nicht neu erfinden. Er baut auf dem Vorherigen auf, was Fehler vermeidet und die Antwort viel präziser macht.

Warum ist das so erfolgreich?

Stellen Sie sich vor, Sie müssten einen komplexen Bauantrag schreiben.

  • Ohne Track-SQL: Der Architekt (das Sprachmodell) versucht, alles aus dem Kopf zu bauen. Er vergisst manchmal, welche Materialien (Daten) er schon hat, und benutzt stattdessen falsche Steine.
  • Mit Track-SQL:
    1. Der Sucher sorgt dafür, dass nur die richtigen Baupläne (Schema) auf den Tisch gelegt werden.
    2. Der Manager sorgt dafür, dass der Architekt genau weiß, wo er im letzten Schritt aufgehört hat, und baut nahtlos weiter.

Das Ergebnis:
Die Tests zeigen, dass dieses System auf zwei großen Prüfungen (SparC und CoSQL) deutlich besser abschneidet als alle bisherigen Methoden. Es macht weniger Fehler, versteht die Zusammenhänge in langen Gesprächen viel besser und liefert genauere Antworten.

Zusammenfassend: Track-SQL ist wie ein Super-Assistent, der zwei Spezialisten an die Seite bekommt: Einen, der die richtigen Datenquellen findet, und einen, der den Gesprächsfaden nicht verliert. Dadurch wird aus einem verwirrten Chatbot ein präziser Datenbank-Experte.