Comparison of Outlier Detection Algorithms on String Data

Each language version is independently generated for its own context, not a direct translation.

Titel: Der große Vergleich: Wie man „falsche Freunde" in Texten findet

Stell dir vor, du hast einen riesigen Haufen Zettel mit verschiedenen Texten. Die meisten Zettel sind ganz normal und gehören zusammen – wie eine Liste von deutschen Postleitzahlen oder Namen von Städten. Aber irgendwo dazwischen sind ein paar Zettel, die nicht hingehören. Vielleicht steht dort „Apfel" statt einer Postleitzahl, oder ein Datum ist völlig falsch geschrieben.

Diese Arbeit von Philip Maus fragt sich: Wie finden wir Computer diese „falschen Freunde" (Ausreißer) am besten?

Bisher haben Computer meistens nur bei Zahlen gut gearbeitet (z. B. bei Bankkontoständen). Aber Texte sind schwieriger. Maus hat zwei verschiedene Methoden getestet, um zu sehen, welche besser ist.

Hier ist die Erklärung der beiden Methoden mit einfachen Bildern:

Methode 1: Der „Nachbarschafts-Check" (Local Outlier Factor)

Stell dir vor, du bist auf einer Party.

Die Idee: Die meisten Leute stehen in Gruppen und unterhalten sich. Wenn jemand allein in der Ecke steht und niemand ihn kennt, ist er wahrscheinlich ein Ausreißer.
Wie es funktioniert: Der Algorithmus schaut sich jeden Text an und zählt, wie viele „ähnliche" Texte in der Nähe sind.
- Wenn ein Text viele Nachbarn hat (z. B. „10115", „10117", „10119"), ist er sicher.
- Wenn ein Text weit weg von allen anderen steht (z. B. „Apfelkuchen"), ist er ein Ausreißer.
Der Trick mit der Hierarchie: Normalerweise zählt der Computer jeden Buchstabenwechsel gleich. Aber Maus hat einen cleveren Trick eingebaut: Er weiß, dass ein „a" und ein „b" sich ähnlich sind (beide Buchstaben), aber ein „a" und eine „5" sind völlig unterschiedlich.
- Analogie: Wenn du „Maus" in „Haus" umwandelst, ist das ein kleiner Schritt (nur der erste Buchstabe). Wenn du „Maus" in „5aus" umwandelst, ist das ein riesiger Schritt (Buchstabe zu Zahl). Der Algorithmus bestraft den riesigen Schritt härter. Das hilft ihm, Texte besser zu unterscheiden.

Wann ist diese Methode gut?
Wenn die „falschen Freunde" zwar ähnlich aussehen wie die echten, aber einfach nicht so oft vorkommen oder leicht anders geschrieben sind. Sie ist wie ein sensibler Nachbarschafts-Wächter.

Methode 2: Der „Muster-Schnüffler" (Reguläre Ausdrücke / HiLRE)

Stell dir vor, du hast eine Schablone (eine Vorlage), die genau beschreibt, wie ein normaler Text aussehen muss.

Die Idee: Der Computer lernt aus den normalen Texten eine Art „Regel" oder „Schablone". Alles, was in diese Schablone passt, ist okay. Alles, was nicht passt, ist ein Ausreißer.
Wie es funktioniert: Der Algorithmus schaut sich tausende Postleitzahlen an und merkt sich: „Aha! Alle bestehen aus genau 5 Zahlen." Er baut eine Schablone: [5 Zahlen].
- Kommt „12345" rein? Passt!
- Kommt „Apfel" rein? Passt nicht! -> Ausreißer!
Der Clou: Der Algorithmus ist schlau genug, verschiedene Schablonen zu testen. Er fragt sich: „Welche Schablone deckt die meisten normalen Texte ab, aber schließt die seltsamen Texte aus?"

Wann ist diese Methode gut?
Wenn die normalen Texte eine sehr klare Struktur haben (wie Postleitzahlen, die immer 5 Ziffern sind). Dann ist diese Methode extrem präzise und macht fast keine Fehler.

Wann ist sie schlecht?
Wenn die normalen Texte chaotisch sind. Stell dir vor, du willst die Namen von Städten erkennen. „Berlin", „München", „Frankfurt (Oder)", „Bonn". Da gibt es keine einfache Schablone. Der Computer kann keine perfekte Regel finden und gibt dann auf oder macht viele Fehler.

Das große Rennen: Wer gewinnt?

Maus hat beide Methoden an echten Daten getestet (z. B. Adressen von deutschen Krankenhäusern).

Szenario A: Klare Struktur (Postleitzahlen)
- Aufgabe: Finde Städte-Namen in einer Liste von Postleitzahlen.
- Ergebnis: Der Muster-Schnüffler (Methode 2) gewinnt haushoch. Er erkennt sofort: „Das sind keine 5 Zahlen!" und markiert sie. Der Nachbarschafts-Check (Methode 1) ist etwas langsamer und macht manchmal Fehler, weil manche Städtenamen auch 5 Buchstaben lang sind.
Szenario B: Chaotische Struktur (Städtenamen)
- Aufgabe: Finde Postleitzahlen in einer Liste von Städtenamen.
- Ergebnis: Beide Methoden haben Mühe. Der Muster-Schnüffler kann keine Regel für die chaotischen Städtenamen finden. Der Nachbarschafts-Check (Methode 1) ist hier etwas besser, weil er einfach sagt: „Die Postleitzahlen sehen alle gleich aus, die Städte sind alle anders – also sind die Postleitzahlen die Ausreißer."
Szenario C: Längen-Unterschiede (Hausnummern vs. Postleitzahlen)
- Aufgabe: Finde lange Hausnummern oder Telefonnummern in einer Liste von kurzen Postleitzahlen.
- Ergebnis: Der Nachbarschafts-Check (Methode 1) ist hier der Gewinner. Da die Postleitzahlen alle kurz und dicht beieinander liegen, fallen die langen Nummern sofort als „einsam" auf. Der Muster-Schnüffler hat Probleme, weil er sich unsicher ist, ob er eine Regel für „alle Zahlen" oder nur für „5-stellige Zahlen" bauen soll.

Fazit für den Alltag

Es gibt keinen „perfekten" Roboter für alles.

Wenn du klare Regeln hast (wie Datenformate, Postleitzahlen, E-Mail-Adressen), nimm den Muster-Schnüffler. Er ist präzise wie ein Scheren.
Wenn die Daten vielfältig sind oder sich nur leicht unterscheiden (wie verschiedene Schreibweisen von Namen oder Texte mit unterschiedlicher Länge), ist der Nachbarschafts-Check besser. Er ist wie ein erfahrener Detektiv, der ein Gefühl für „Unstimmigkeiten" hat.

Diese Arbeit zeigt also: Um Fehler in Texten zu finden, muss man zuerst schauen, wie „ordentlich" die Texte sind, und dann den passenden Detektiv auswählen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung der Bachelorarbeit von Philip Maus auf Deutsch:

Titel: Vergleich von Ausreißererkennungsalgorithmen auf Zeichenketten

1. Problemstellung
Die Ausreißererkennung (Outlier Detection) ist ein gut erforschtes Feld im maschinellen Lernen, konzentriert sich jedoch überwiegend auf numerische Daten. Es gibt einen Mangel an Forschung zur Erkennung von Ausreißern in Zeichenkettendaten (String Data). Solche Algorithmen sind jedoch essenziell für Anwendungen wie die Datenbereinigung, die Analyse von Proteinsequenzen oder die Anomalieerkennung in Systemprotokollen.
Das Ziel dieser Arbeit ist es, zwei verschiedene Algorithmen zu entwickeln und zu vergleichen, die in der Lage sind, syntaktische Ausreißer in Datensätzen zu erkennen, die aus einzelnen Wörtern (Strings) bestehen, ohne dass zusätzlicher semantischer Kontext benötigt wird.

2. Methodik
Die Arbeit vergleicht zwei unterschiedliche Ansätze: einen dichte-basierten Ansatz (K-Nearest-Neighbor) und einen sprachbasierten Ansatz (Reguläre Ausdrücke).

Ansatz A: Local Outlier Factor (LOF) für Strings
- Grundlage: Der klassische LOF-Algorithmus berechnet die Dichte eines Datenpunkts relativ zu seinen $k$ -Nachbarn.
- Anpassung für Strings: Da Strings keine numerischen Werte sind, wird die Distanzberechnung durch die Levenshtein-Distanz (Bearbeitungsdistanz) ersetzt.
- Gewichtete Levenshtein-Metrik: Um die syntaktische Struktur besser abzubilden, wird eine hierarchische Partitionierung des Alphabets eingeführt (z. B. Trennung von Ziffern, Kleinbuchstaben, Großbuchstaben, Satzzeichen). Die Kosten für das Ersetzen eines Zeichens hängen von der Distanz im Hierarchiebaum ab (ähnliche Klassen haben geringere Kosten).
- Parameter:
  - $k$ (Anzahl der Nachbarn) wird automatisch mittels des KFCS-Guessers (K-Finder based on Neighborhood Consistency) bestimmt.
  - Ein dynamischer Schwellenwert basierend auf einem Multiplikator des mittleren Anomalie-Scores wird verwendet, um Ausreißer zu klassifizieren.
Ansatz B: Hierarchische Linke Reguläre Ausdrücke (HiLRE)
- Grundlage: Der Algorithmus geht davon aus, dass die erwarteten Daten durch eine reguläre Sprache beschreibbar sind. Er nutzt den HiLRE-Lerner (Hierarchical Left Regular Expression), der inkrementell aus den Daten einen minimalen regulären Ausdruck ableitet.
- Strategie zur Ausreißererkennung: Da ein regulärer Ausdruck, der alle Daten (inklusive Ausreißer) lernt, zu ungenau wäre, wird ein optimaler Ausdruck $H^*$ gesucht.
- Algorithmus: Es werden HiLREs für alle möglichen Teilmengen des Datensatzes generiert. Der "beste" Ausdruck $H^*$ wird ausgewählt, indem derjenige gewählt wird, der im Vergleich zu seinen Teilmengen die größte Anzahl neuer Treffer liefert (maximale Differenz).
- Erweiterung: Eine Variante führt einen Parameter $p_{min}$ ein, der festlegt, welcher Mindestprozentsatz der Daten vom gewählten Ausdruck abgedeckt werden muss, um Überanpassung (Overfitting) an kleine, häufige Muster zu vermeiden.

3. Experimente und Datensätze
Die Algorithmen wurden auf synthetischen Daten (ISO 8601 Datumsformate mit eingefügten Ausreißern) und realen Daten getestet.

Reale Daten: Adressdaten (Postleitzahlen, Ortsnamen, Hausnummern), Datums- und Zeitstempel aus den Qualitätsberichten deutscher Krankenhäuser (2023).
Experimente:
1. Basislinien-Tests: Prüfung auf False Positives in sauberen Datensätzen.
2. Vergleich mit Ausreißern: ROC-Kurven (Receiver Operating Characteristic) zur Bewertung von True Positive Rate (TPR) vs. False Positive Rate (FPR).
3. Szenarien:
  - Postleitzahlen (Erwartet) vs. Ortsnamen (Ausreißer).
  - Ortsnamen (Erwartet) vs. Postleitzahlen (Ausreißer).
  - Postleitzahlen (Erwartet) vs. Hausnummern/Telefonnummern (Ausreißer).

4. Wichtige Ergebnisse

LOF-Algorithmus:
- Funktioniert gut, wenn Ausreißer sich in ihrer Bearbeitungsdistanz (Edit Distance) signifikant von den erwarteten Daten unterscheiden.
- Die hierarchisch gewichtete Metrik bietet Vorteile, wenn Zeichenklassen unterschieden werden müssen (z. B. Ziffern vs. Buchstaben), ist aber bei sehr homogenen Datensätzen (wie reinen Postleitzahlen) ähnlich effektiv wie die Standard-Metrik.
- Er liefert stabilere Ergebnisse bei Datensätzen mit hoher Varianz, neigt aber zu höheren False-Positive-Raten, wenn die Struktur der Daten sehr unregelmäßig ist.
HiLRE-Algorithmus:
- Stärke: Übertrifft LOF deutlich, wenn die erwarteten Daten eine klare, strikte Struktur haben (z. B. 5-stellige Postleitzahlen), die sich stark von der Struktur der Ausreißer unterscheidet. In diesem Szenario konnte er 100% der Ausreißer bei 0% False Positives erkennen.
- Schwäche: Wenn die erwarteten Daten selbst sehr heterogen sind (z. B. Ortsnamen mit variierenden Längen und Sonderzeichen), scheitert der Algorithmus oft, da kein passender regulärer Ausdruck gefunden werden kann, der die "Norm" gut beschreibt, ohne Ausreißer mit einzuschließen.
- Der Parameter $p_{min}$ hilft, die Balance zwischen Überanpassung und Unteranpassung zu steuern.

5. Bedeutung und Fazit
Die Arbeit zeigt, dass es keinen "universellen" Algorithmus für String-Ausreißer gibt. Die Wahl hängt stark von der Natur des Datensatzes ab:

Ist die Struktur der Daten starr und formal (z. B. Formulare, IDs, Datumsformate), ist der HiLRE-Ansatz überlegen.
Sind die Daten variabler oder basieren auf Dichteverteilungen, bei denen Ausreißer durch eine große Edit-Distanz auffallen, ist der LOF-Ansatz (insbesondere mit gewichteter Metrik) besser geeignet.

6. Ausblick
Zukünftige Arbeiten sollten eine theoretische Analyse der Laufzeit- und Speicherkomplexität sowie eine Erweiterung auf mehrwortige Strings oder semantische Ausreißererkennung (unter Einbeziehung von Kontext) umfassen. Zudem könnte die Auswahlstrategie für den HiLRE optimiert werden, um die Ergebnisse bei heterogenen Daten zu verbessern.

Comparison of Outlier Detection Algorithms on String Data

Methode 1: Der „Nachbarschafts-Check" (Local Outlier Factor)

Methode 2: Der „Muster-Schnüffler" (Reguläre Ausdrücke / HiLRE)

Das große Rennen: Wer gewinnt?

Fazit für den Alltag

Titel: Vergleich von Ausreißererkennungsalgorithmen auf Zeichenketten

Mehr davon

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers