Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Lehrer, der seine Schüler auf eine große Prüfung vorbereitet. Das Thema ist: „Fehler in Daten finden und korrigieren".

Das Problem ist: Um gute Schüler (also Computerprogramme) zu bilden, braucht man viele Übungsblätter mit echten Fehlern. Aber echte Fehler in echten Datenbanken zu finden, ist extrem schwierig, teuer und zeitaufwendig. Man müsste Tausende von Dokumenten von Hand durchsuchen und Fehler markieren.

Bisher haben Forscher versucht, diese Fehler einfach zu erfinden. Sie haben Regeln aufgestellt wie: „Tausche einen Buchstaben aus" oder „Mache eine Zahl größer".

Das Problem dabei: Das Ergebnis ist oft so künstlich, wie wenn ein Kind versucht, ein echtes Gemälde nachzumalen, indem es einfach rote Punkte auf eine Leinwand klebt. Es sieht aus wie ein Fehler, ist aber nicht echt. Ein Computer, der nur auf diesen künstlichen Fehlern trainiert wurde, ist wie ein Schüler, der nur Muster auswendig gelernt hat, aber im echten Leben versagt, wenn die Fehler anders aussehen.

Die Lösung: TableEG – Der „Meister-Fälscher"

In diesem Paper stellen die Autoren TableEG vor. Das ist ein neues Werkzeug, das auf Künstlicher Intelligenz (KI), genauer gesagt auf einem „Large Language Model" (wie ein sehr schlauer Chatbot), basiert.

Stellen Sie sich TableEG nicht als einen strengen Lehrer vor, der Regeln abhakt, sondern als einen Meister-Fälscher oder einen Schauspieler, der gelernt hat, wie echte Fehler aussehen.

Hier ist, wie es funktioniert, in einfachen Bildern:

1. Der Unterricht (Fine-Tuning)

Normalerweise ist ein KI-Modell wie ein Student, der nur Bücher gelesen hat, aber nie in einer echten Datenbank gearbeitet hat. Wenn man ihn fragt: „Mach einen Fehler!", macht er etwas Dummes, wie „Interstellar" in „InterstellaX" zu verwandeln. Das ist ein Fehler, aber kein realistischer.

Die Autoren haben diesem KI-Modell nun einen intensiven Kurs gegeben. Sie haben ihm Tausende von echten, menschlich gemachten Fehlerbeispielen gezeigt.

Die Analogie: Stellen Sie sich vor, Sie geben dem KI-Modell eine Mappe mit echten Polizeiberichten über gestohlene Autos. Es sieht, wie Diebe wirklich vorgehen (nicht nur, dass sie die Tür aufbrechen, sondern vielleicht auch den Schlüssel im Schloss lassen oder das Nummernschild falsch abkleben).
Das Modell lernt nicht nur dass etwas falsch ist, sondern wie es falsch ist. Es lernt den „Stil" echter Fehler.

2. Die Struktur (Der Tischtuch-Effekt)

Datenbanken sind wie Tische mit vielen Zeilen und Spalten. Ein Fehler in einer Zelle beeinflusst oft andere Zellen.

Das Problem: Normale KIs verstehen diese Zusammenhänge schlecht. Sie denken linear (Zeile für Zeile).
Die Lösung TableEG: Das Modell wurde speziell darauf trainiert, den ganzen Tisch zu sehen. Es versteht, dass wenn in einer Spalte „Datum" steht, es dort keine „Banane" geben kann, auch wenn die KI das Wort „Banane" kennt. Es lernt die Logik des Tisches.

3. Das Ergebnis: Authentische Fälschungen

Wenn TableEG jetzt einen neuen, sauberen Datensatz bekommt, kann es darin glaubwürdige Fehler einbauen.

Beispiel: Statt einfach nur „142 min" in „142 mix" zu ändern (was niemand macht), könnte es den Filmtitel „Forrest Gump" in einen echten, aber falschen Filmtitel wie „The Truman Show" ändern (weil es denkt, der Eintrag wäre verwechselt worden) oder eine unrealistische Dauer wie „521 Minuten" einfügen, die wie ein echter Messfehler aussieht.

Warum ist das so wichtig?

Stellen Sie sich vor, Sie testen einen neuen Metalldetektor.

Methode A (Alt): Sie werfen ein paar alte Nägel und Münzen in den Sand. Der Detektor geht los. Gut.
Methode B (TableEG): Sie werfen Dinge in den Sand, die genau so aussehen, wie sie in einer echten Schatzsuche vorkommen würden – verrostete, gebogene, halb vergrabene Dinge, die man leicht übersehen könnte.

Wenn der Metalldetektor (also die Datenbereinigungs-Software) Methode B besteht, dann wissen Sie: Er ist wirklich gut.

Zusammenfassung in einem Satz

TableEG ist wie ein Schulmeister-KI, die gelernt hat, wie echte Menschen Fehler machen, damit sie Trainingsdaten für Computerprogramme erstellen kann, die so realistisch sind, dass sie die Programme perfekt auf die echte Welt vorbereiten.

Der große Gewinn:

Schneller: Man muss keine Fehler mehr mühsam von Hand suchen.
Besser: Die KI generiert Fehler, die komplex und vielfältig sind (nicht nur Buchstabendreherei).
Zuverlässiger: Software, die auf diesen Daten trainiert wird, funktioniert in der echten Welt viel besser.

Die Autoren sagen im Grunde: „Wir haben die perfekte Übungsschule gebaut, damit unsere Daten-Reinigungs-Roboter in der echten Welt nicht versagen."

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models" auf Deutsch:

1. Problemstellung

Die Qualität von Daten ist eine fundamentale Herausforderung in datengesteuerten Systemen, da Fehler in tabellarischen Daten die Zuverlässigkeit von Analysen und Machine-Learning-Modellen erheblich beeinträchtigen können. Obwohl zahlreiche Algorithmen zur Fehlererkennung existieren, fehlt es an umfassenden Evaluierungen aufgrund des Mangels an vielfältigen, realistischen Datensätzen mit Fehlern.

Limitationen manueller Annotation: Das manuelle Markieren von Fehlern ist zeitaufwendig, teuer und oft inkonsistent.
Limitationen bestehender synthetischer Methoden: Der aktuelle Standard, das regelbasierte Framework BART, erzeugt Fehler, die zu stark auf vordefinierten Mustern basieren (z. B. zufällige Zeichenänderungen). Diese generierten Fehler spiegeln oft nicht die komplexe Semantik, die Verteilung oder die Nuancen echter Datenkorruptionen wider (z. B. fehlende Werte, die spezifischen Kontexten entsprechen, oder semantische Inkonsistenzen).
Herausforderung bei LLMs: Der direkte Einsatz von Large Language Models (LLMs) zur Fehlergenerierung scheitert oft daran, dass diese Modelle die zweidimensionale Struktur von Tabellen sowie die Abhängigkeiten zwischen Zeilen und Spalten (z. B. Fremdschlüsselbeziehungen) nicht ausreichend verstehen, was zu unlogischen oder zufälligen Korruptionen führt.

2. Methodik: Das TableEG-Framework

Die Autoren stellen TableEG vor, ein Framework, das instruction-tuned Large Language Models nutzt, um authentische Fehler in tabellarischen Daten zu generieren. Der Ansatz basiert auf vier Hauptphasen:

A. Triplet-Repräsentation und Aufgabenformulierung

Um die Komplexität von Tabellen zu erfassen, wird jede Aufgabe als Triplet $(I, T, O)$ modelliert:

$I$ (Instruction): Eine spezifische Anweisung, die den Aufgabentyp und den Fehlertyp beschreibt.
$T$ (Table): Der Eingabetable (ein repräsentativer Ausschnitt der sauberen Daten).
$O$ (Output): Die strukturierte Ausgabe, die die Position, den Typ und den Wert des generierten Fehlers (bzw. die Korrektur) angibt.

Das Training umfasst drei miteinander verknüpfte Teilaufgaben, um das Verständnis des Modells zu vertiefen:

Fehlergenerierung (Error Generation): Das Modell lernt, realistische Fehler in saubere Daten einzufügen.
Fehlererkennung (Error Detection): Das Modell lernt, Fehler in bereits korrupten Daten zu identifizieren.
Fehlerkorrektur (Error Correction): Das Modell lernt, korrekte Werte für erkannte Fehler vorherzusagen.
Zusätzlich werden nicht-fehlerbezogene Aufgaben (z. B. Zeilen/Spalten-Tausch, Zusammenfassung) integriert, um das strukturelle Verständnis der Tabelle zu stärken.

B. Instruction Fine-Tuning

Anstatt LLMs nur über Prompts zu steuern, wird das Modell (basierend auf LLaMA3.1-8B) mittels LoRA (Low-Rank Adaptation) auf einem Datensatz aus 12 realen Datensätzen aus 10 verschiedenen Domänen (z. B. Finanzen, Gesundheit, Film) feinabgestimmt. Diese Datensätze enthalten manuell annotierte Fehler, die als Ground Truth dienen. Das Modell lernt somit die Verteilung und Semantik echter Fehler direkt aus den Daten.

C. Fehlergenerierungsprozess

Beim Einsatz generiert TableEG Fehler in mehreren Schritten:

Der Benutzer gibt saubere Daten und Parameter vor (Fehlerrate, Verteilung der Fehlertypen).
Das Framework sampelt Unter-Tabellen aus den Eingabedaten.
Basierend auf den Parametern wird eine spezifische Instruction generiert.
Das feinabgestimmte Modell inferiert, welche Zellen korruptiert werden sollen und welche Werte eingefügt werden müssen, unter Berücksichtigung der Kontextabhängigkeiten (z. B. ersetzt es einen Filmtitel durch einen anderen echten Filmtitel, nicht durch einen unsinnigen String).
Die Änderungen werden auf die Originaltabelle angewendet, um den „schmutzigen" Datensatz zu erzeugen.

3. Wichtige Beiträge

Formalisierung und Framework: Entwicklung eines strukturierten Frameworks zur Fehlergenerierung in Tabellen mittels LLMs, das auf einer Triplet-Repräsentation basiert.
TableEG-Modell: Vorstellung eines Modells, das durch Instruction Fine-Tuning und Multi-Task-Learning (Generierung, Erkennung, Korrektur) die Fähigkeit erlangt, komplexe zweidimensionale Abhängigkeiten zu modellieren.
Umfassende Evaluierungsstrategie: Einführung neuer Metriken zur Bewertung der Qualität synthetischer Fehler:
- $S_{EPA}$ (Error Pattern Alignment Similarity): Misst die Ähnlichkeit der Transformationsvektoren zwischen generierten und realen Fehlern im Embedding-Space.
- Gewichtete Jaccard-Ähnlichkeit ( $J^w_{col}$ ) & Jensen-Shannon-Divergenz ( $D_{JS}$ ): Quantifizieren die Übereinstimmung der Fehlerverteilungen über Spalten und Fehlertypen hinweg.
Benchmarking-Ergebnisse: Nachweis, dass TableEG-generierte Fehler für Fehlererkennungsalgorithmen eine realistischere Herausforderung darstellen als regelbasierte Methoden.

4. Ergebnisse

Die Experimente wurden auf gesehenen (während des Trainings verwendeten) und ungesehenen Datensätzen durchgeführt und verglichen mit BART (regelbasiert) und GPT-3.5 Turbo (ohne Fine-Tuning).

Pattern-Ähnlichkeit ( $S_{EPA}$ ): TableEG erreichte eine durchschnittliche Ähnlichkeit von 77,76 % zu realen Fehlern, deutlich höher als BART (49,36 %) und GPT-3.5 (50,45 %). Dies zeigt, dass TableEG die subtilen Muster echter Datenkorruptionen besser erfasst.
Verteilungs-Ähnlichkeit: TableEG erzielte signifikant bessere Werte bei der gewichteten Jaccard-Ähnlichkeit (z. B. 82,3 vs. 34,69 bei BART auf dem Flight-Datensatz) und niedrigere Jensen-Shannon-Divergenzen. Dies beweist, dass die generierten Fehler die statistische Verteilung realer Fehler (z. B. welche Spalten häufiger betroffen sind) korrekt abbilden.
Performance bei Fehlererkennung: Wenn verschiedene Fehlererkennungsalgorithmen (z. B. Raha, Holistic) auf TableEG-generierten Daten getestet wurden, waren die Ergebnisse (Precision, Recall, F1-Score) fast identisch mit denen auf echten, manuell annotierten Daten. Dies bestätigt, dass TableEG-Fehler die gleichen Schwierigkeiten für Erkennungssysteme darstellen wie echte Fehler.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke im Bereich Data Cleaning: den Mangel an hochwertigen, synthetischen Benchmarks.

Praktische Relevanz: TableEG ermöglicht es Forschern und Entwicklern, robuste Fehlererkennungssysteme zu trainieren und zu evaluieren, ohne auf teure manuelle Annotationen angewiesen zu sein.
Überlegene Realismus: Im Gegensatz zu regelbasierten Ansätzen, die oft nur oberflächliche Fehler erzeugen, generiert TableEG Fehler, die semantisch sinnvoll und strukturell konsistent mit dem Kontext der Tabelle sind (z. B. semantische Inkonsistenzen statt nur Tippfehler).
Zukunftsaussichten: Das Framework legt den Grundstein für adaptive Lernstrategien, bei denen das Modell zukünftig noch autonomer Fehler generieren kann, die spezifische Domänenmerkmale berücksichtigen.

Zusammenfassend etabliert TableEG einen neuen Standard für die Bewertung von Data-Cleaning-Techniken, indem es synthetische Daten erzeugt, die in ihrer Komplexität und Verteilung realen Datenkorruptionen nahekommend sind.