SQUiD: Synthesizing Relational Databases from Unstructured Text

Das Paper stellt SQUiD vor, ein neurosymbolisches Framework, das mithilfe von Large Language Models aus unstrukturierten Texten automatisch relationale Datenbanken mit Schema und Daten synthetisiert und dabei bestehende Baseline-Methoden übertrifft.

Mushtari Sadia, Zhenning Yang, Yunming Xiao, Ang Chen, Amrita Roy Chowdhury

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen Haufen ungeordneter Notizbücher, Tagebücher und Briefe. Darin stehen Geschichten über Menschen, ihre Reisen, ihre Einkäufe und ihre Abenteuer. Die Informationen sind da, aber sie sind unstrukturiert – wie ein Haufen Puzzleteile, die noch nicht zusammengefügt sind.

Ein Datenbank (wie ein riesiges, perfektes Excel-Tablett) ist das Gegenteil: Alles ist in Zeilen und Spalten sortiert, man kann sofort nachfragen: „Wer war wann in Rom?" und erhält eine klare Antwort.

Das Problem: Unsere Computer können mit den Notizbüchern nicht direkt reden, aber sie brauchen die strukturierte Datenbank, um die Daten zu analysieren.

Hier kommt SQUiD ins Spiel.

Was ist SQUiD?

SQUiD ist kein Tier, sondern ein genialer digitaler Architekt und Übersetzer, der von Künstlicher Intelligenz (KI) angetrieben wird. Seine Aufgabe ist es, aus dem chaotischen Text-Haufen automatisch eine perfekte Datenbank zu bauen.

Stellen Sie sich SQUiD wie einen Bauvorstand auf einer Baustelle vor, der in vier klare Schritte unterteilt ist, damit nichts schiefgeht:

1. Der Bauplan (Schema-Generierung)

Bevor man ein Haus baut, braucht man einen Architekten, der den Grundriss zeichnet.

  • Das Problem: Wenn man einer KI einfach sagt: „Mach eine Datenbank aus diesem Text!", verliert sie oft den Überblick. Sie baut vielleicht ein Haus ohne Fundament oder vergisst, dass die Küche mit dem Wohnzimmer verbunden sein muss.
  • Die SQUiD-Lösung: SQUiD liest den Text und entwirft zuerst den perfekten Bauplan. Es entscheidet: „Okay, wir brauchen eine Tabelle für Reisende, eine für Reiseziele und eine für Buchungen. Und diese müssen so verbunden sein, dass man weiß, wer wohin reist." Es achtet dabei streng auf die Regeln der Architektur (Datenbank-Regeln), damit später nichts einstürzt.

2. Die Materialsuche (Werte-Identifikation)

Jetzt muss das Baumaterial gefunden werden.

  • Das Problem: In einem Text steht oft: „Sophia war in Rom." und später wieder: „Sie besuchte Rom." Eine naive KI könnte denken, das sind zwei verschiedene Dinge oder vergisst Details.
  • Die SQUiD-Lösung: SQUiD nutzt zwei Werkzeuge gleichzeitig, wie ein Detektiv mit Lupe und Notizblock:
    • Ein symbolisches Werkzeug (ein strenger Roboter) sucht nach Wörtern und Zahlen, die genau so stehen, wie sie sind.
    • Die KI (der kreative Mensch) versteht den Kontext: „Ah, 'Sie' bezieht sich auf Sophia."
    • Beide sammeln die Informationen in kleinen Paketen (Dreiergruppen), damit nichts verloren geht.

3. Das Einräumen (Tabellen-Befüllung)

Jetzt wird das Material in die Regale sortiert.

  • Das Problem: Wenn man versucht, alles auf einmal in die Datenbank zu schütten, landet oft das falsche Material im falschen Regal (z. B. das Alter von Sophia in die Spalte für das Reiseziel).
  • Die SQUiD-Lösung: SQUiD geht sehr methodisch vor. Es nimmt die gesammelten Pakete und füllt sie Zeile für Zeile in die richtigen Tabellen. Es stellt sicher, dass Sophia in der Tabelle „Reisende" und ihre Reise in der Tabelle „Buchungen" mit demselben Namen verknüpft ist. Es ist wie ein hochorganisiertes Lagerhaus, das sicherstellt, dass jedes Teil seinen exakten Platz hat.

4. Der Schlüssel zur Tür (Datenbank-Materialisierung)

Am Ende muss das Gebäude betretbar sein.

  • Das Problem: Wenn die KI versucht, den fertigen Code (SQL-Befehle) direkt zu schreiben, macht sie oft kleine Tippfehler, wie ein fehlendes Komma. Das ganze Haus stürzt dann ab, und die Datenbank ist kaputt.
  • Die SQUiD-Lösung: SQUiD schreibt den Code nicht selbst. Stattdessen nimmt es die perfekt sortierten Daten und lässt einen Roboter-Übersetzer den fertigen Bauplan in die exakte Sprache der Datenbank (SQL) umwandeln. Da die Daten schon vorher perfekt sortiert waren, ist der Code zu 100 % fehlerfrei und sofort einsatzbereit.

Warum ist das so wichtig?

Früher mussten Menschen stundenlang Texte lesen und manuell Daten in Tabellen eintragen. Das war langsam und fehleranfällig. Andere KI-Modelle versuchten, das direkt zu machen, scheiterten aber oft an der Komplexität (wie in Abbildung 1 des Papers gezeigt: falsche Namen, fehlende Daten, kaputte Befehle).

SQUiD ist wie ein Schweizer Taschenmesser für Daten: Es zerlegt das riesige Problem in kleine, handhabbare Aufgaben. Es kombiniert die Kreativität der KI (um Texte zu verstehen) mit der Strenge von klassischen Computer-Regeln (um Fehler zu vermeiden).

Das Ergebnis: Aus einem unordentlichen Texthaufen entsteht in Sekunden eine saubere, durchsuchbare Datenbank, die man sofort nutzen kann – als hätte man einen magischen Assistenten, der für Sie den ganzen Papierkram erledigt.