Comparison of Outlier Detection Algorithms on String Data

Each language version is independently generated for its own context, not a direct translation.

De Opdracht: De "Vreemdeling" vinden in een menigte

Stel je voor dat je een enorme stapel post hebt ontvangen. De meeste brieven zijn normale facturen of uitnodigingen. Maar ergens tussen die duizenden brieven zitten een paar rare briefjes: een brief die in het Chinees is geschreven terwijl de rest Nederlands is, of een brief die helemaal geen tekst heeft, maar alleen een tekening van een koe.

Het vinden van die rare briefjes noemen we uitreizerdetectie (of outlier detection). In de computerwereld is dit al lang een bekend probleem, maar meestal kijken computers alleen naar cijfers (zoals temperaturen of prijzen). Wat als de data niet uit cijfers bestaat, maar uit woorden en zinnen (zoals adresgegevens, logbestanden of e-mails)? Dat is waar deze bachelorproef van Philip Maus over gaat.

Hij heeft twee verschillende manieren bedacht om die "rare briefjes" in een stapel tekst te vinden. Laten we ze eens bekijken.

Manier 1: De "Burencheck" (De LOF-algoritme)

De eerste methode is gebaseerd op een idee dat we allemaal kennen: "Je bent wat je omgeving is."

Stel je voor dat je in een drukke stad loopt.

Als je in een dichte menigte staat, voel je je "normaal". Je hebt veel buren om je heen.
Als je echter alleen in een groot, leeg veld staat, voel je je opvallend. Je hebt geen buren.

De computer doet precies hetzelfde met tekst:

De Meting: De computer kijkt naar twee teksten en vraagt zich af: "Hoeveel moeite kost het om tekst A om te vormen tot tekst B?" Dit heet de Levenshtein-afstand. Denk hierbij aan het veranderen van letters (bijvoorbeeld: "Huis" naar "Huisje" kost één stapje).
De Buren: De computer kijkt naar de k dichtstbijzijnde buren van een tekst. Als een tekst heel ver weg staat van al zijn buren, is het een uitreizer.
De Slimme Weegschaal: De auteur heeft een slimme toevoeging bedacht. Niet alle letters zijn even belangrijk.
- Voorbeeld: Als je een cijfer vervangt door een ander cijfer (bijv. '1' naar '2'), is dat niet zo'n groot verschil. Maar als je een cijfer vervangt door een letter (bijv. '1' naar 'A'), is dat een enorme verandering.
- De computer gebruikt een hiërarchie (een stamboom van tekens) om te weten dat '1' en '2' familie zijn, maar '1' en 'A' verre buren. Hierdoor wordt de meting veel nauwkeuriger.

Wanneer werkt dit goed?
Als de "normale" teksten allemaal ongeveer hetzelfde formaat hebben, maar de "rare" teksten er heel anders uitzien (bijvoorbeeld: een lange rij cijfers versus een korte zin).

Manier 2: De "Stempel" (De HiLRE-algoritme)

De tweede methode werkt heel anders. In plaats van te kijken naar buren, probeert deze computer een stempel (een patroon) te maken dat precies past op de "normale" brieven.

Stel je voor dat je duizenden brieven hebt met een adres.

De computer probeert een regel op te stellen, bijvoorbeeld: "Elk adres moet bestaan uit 5 cijfers."
Als een brief aan die regel voldoet, is hij normaal.
Als een brief niet aan die regel voldoet (bijvoorbeeld omdat er letters in staan), is het een uitreizer.

De slimme truc hier is dat de computer niet zomaar één regel kiest. Hij probeert duizenden mogelijke regels te maken en zoekt de beste regel.

Hij wil een regel die zo veel mogelijk normale brieven accepteert.
Maar hij wil ook dat de regel zo specifiek is dat hij rare brieven niet accepteert.
Hij gebruikt een parameter (een knopje) om te zeggen: "Ik wil dat mijn regel minstens 90% van de brieven accepteert, maar niet meer."

Wanneer werkt dit goed?
Als de normale data een heel strak patroon heeft. Bijvoorbeeld: alle telefoonnummers zijn precies 10 cijfers lang. De computer maakt dan een stempel voor "10 cijfers" en gooit alles wat anders is weg.

De Grote Wedstrijd: Wie wint er?

De auteur heeft deze twee methoden getest op echte data van Duitse ziekenhuizen (adressen, data, tijden). Het resultaat was verrassend: Het hangt af van de situatie.

Scenario A: De strakke structuur (Postcodes)

De situatie: Normale data zijn postcodes (altijd 5 cijfers). Uitreizers zijn stadsnamen (verschillende lengtes, letters).
De winnaar: De Stempel-methode (HiLRE).
Waarom? Omdat postcodes zo strak zijn, kon de computer een perfecte stempel maken ("5 cijfers"). Alles wat niet 5 cijfers was, viel er direct uit. De "Burencheck" had het iets moeilijker, omdat sommige stadsnamen ook 5 letters lang zijn en daardoor verward werden met postcodes.

Scenario B: De chaotische structuur (Stadsnamen)

De situatie: Normale data zijn stadsnamen (Bonn, Frankfurt, München...). Uitreizers zijn postcodes.
De verliezer: De Stempel-methode.
Waarom? Stadsnamen zijn chaotisch. Sommige zijn kort, sommige lang, sommige met haakjes. De computer kon geen enkele regel bedenken die alle stadsnamen dekte zonder ook de postcodes erbij te halen. De stempel was te vaag.
De winnaar: De Burencheck (LOF).
Waarom? Omdat de postcodes (de uitreizers) vaak een heel ander "gevoel" hadden dan de stadsnamen, merkte de burencheck dat ze niet in de groep pasten, zelfs zonder een strakke regel.

Scenario C: De lengte-verschillen (Huisnummers)

De situatie: Normale data zijn postcodes. Uitreizers zijn huisnummers (soms lang, soms kort, soms met letters).
De winnaar: De Burencheck.
Waarom? De uitreizers hadden vaak dezelfde tekens (cijfers) maar een heel andere lengte. De burencheck zag dit verschil in "afstand" heel goed. De stempel-methode raakte in de war en dacht soms dat alles raar was, of niets.

Conclusie: Geen "één maat voor alles"

De kernboodschap van dit werkstuk is simpel: Er is geen magische knop die altijd werkt.

Als je data een strak patroon heeft (zoals een barcode of een datum), gebruik dan de Stempel-methode. Die is dan super snel en precies.
Als je data verschilt in structuur of lengte, maar wel op elkaar lijkt, gebruik dan de Burencheck. Die is beter in het voelen van de "atmosfeer" van de data.

Philip Maus heeft laten zien dat we computers beter kunnen leren om niet alleen naar cijfers te kijken, maar ook naar de vorm en structuur van woorden. Dit helpt bijvoorbeeld bij het opschonen van databases of het vinden van hackers die vreemde tekens in systeemlogboeken zetten.

Kort samengevat:

LOF (Burencheck): Kijkt naar wie je vrienden zijn. Als je geen vrienden hebt in de buurt, ben je raar.
HiLRE (Stempel): Kijkt of je in het juiste kostuum zit. Als je kostuum niet past bij het patroon, ben je een uitreizer.

Beide methoden zijn nuttig, maar je moet kiezen welke je gebruikt op basis van hoe je "menigte" eruitziet.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het bachelorproefverslag "Comparison of Outlier Detection Algorithms on String Data" van Philip Maus, in het Nederlands.

Probleemstelling

Uitreikersdetectie (outlier detection) is een fundamenteel probleem in het machine learning-domein, maar de meeste bestaande literatuur en algoritmen zijn gericht op numerieke data. Er is echter weinig onderzoek gedaan naar uitreikersdetectie op tekenreeksdata (string data), ondanks de grote relevantie voor toepassingen zoals het schoonmaken van gebruikersinvoer, het analyseren van proteïne-sequenties en het detecteren van anomalieën in systeemlogbestanden.

De kernuitdaging is het definiëren van wat een "uitreiker" is in een context van strings, waarbij de algoritmen moeten kunnen omgaan met syntactische afwijkingen zonder semantische context (bijv. het herkennen dat "22nd of April 2004" een afwijking is binnen een dataset van ISO 8601-datumstrings, puur op basis van de structuur).

Methodologie

De auteur vergelijkt twee verschillende benaderingen voor het detecteren van uitreikers in enkelvoudige woorden (single-word strings):

1. K-Nearest Neighbor-benadering (Local Outlier Factor - LOF)

Principe: Dit algoritme is gebaseerd op dichtheid. Punten die zich in een dichte omgeving bevinden worden als normaal beschouwd, terwijl punten in minder dichte gebieden als uitreikers worden gezien.
Aanpassing voor Strings: Het standaard LOF-algoritme gebruikt een numerieke afstand. Voor strings wordt de Levenshtein-afstand (edit distance) gebruikt om de afstand tussen twee strings te berekenen.
Gewogen Levenshtein: De auteur introduceert een verbeterde versie waarbij de Levenshtein-afstand wordt gewogen op basis van een hiërarchische partitie van karakters. In plaats van dat elke vervanging evenveel kost, wordt de "kosten" bepaald door de afstand tussen karakters in een hiërarchie (bijv. het vervangen van een cijfer door een ander cijfer kost minder dan het vervangen van een cijfer door een letter).
Parameters:
- $k$ -waarde: Bepaald met de KFCS-guesser (K-Finder based on Neighborhood Consistency), die de $k$ kiest die de grootste consistentie in scores binnen de buurt garandeert.
- Drempelwaarde: Een dynamische drempel wordt gebruikt die gebaseerd is op een veelvoud van het gemiddelde van de anomaly scores, wat toelaat om meerdere groepen uitreikers met verschillende gradaties van afwijking te detecteren.

2. Regular Expression-benadering (HiLRE)

Principe: Dit algoritme gaat ervan uit dat de "normale" data beschreven kan worden door een specifieke taal, vertegenwoordigd door een Hiërarchisch Linker Reguliere Expressie (Hierarchical Left Regular Expression - HiLRE). Strings die niet matchen met deze expressie worden als uitreikers gemarkeerd.
Lerend Mechanisme: Het algoritme gebruikt een incrementele leerprocedure (gebaseerd op [Dos+16]) om een HiLRE af te leiden uit de dataset. Het bouwt een lijst van "Learnings" op die de structuur van de strings vastleggen.
Selectie van de Beste Expressie ( $H^*$ ): Omdat de dataset uitreikers kan bevatten, wordt niet zomaar een expressie gekozen die alles matcht. Het algoritme:
1. Genereert HiLRE's voor alle mogelijke subsets van de dataset.
2. Kiest de HiLRE die het grootste aantal nieuwe matches biedt ten opzichte van zijn subsets (maximaliseert het verschil in dekking).
3. Variant: Er wordt een parameter $p_{min}$ geïntroduceerd die vereist dat de geselecteerde expressie minimaal een bepaald percentage van de dataset moet matchen. Dit voorkomt dat het algoritme kiest voor een te specifieke expressie die slechts één veelvoorkomende string matcht.

Belangrijkste Bijdragen

Aanpassing van LOF voor Strings: Implementatie van LOF met Levenshtein-afstand en een innovatieve hiërarchisch gewogen variant die syntactische relaties tussen karakters (zoals cijfers vs. letters) meeneemt in de afstandsberekening.
Nieuwe HiLRE-benadering: Een nieuwe uitreikersdetectie-algoritme dat HiLRE's gebruikt om de structuur van verwachte data te modelleren en afwijkingen te filteren.
Systematische Vergelijking: Een uitgebreide experimentele evaluatie op zowel synthetische als real-world datasets (afkomstig van Duitse ziekenhuisrapporten, inclusief postcodes, plaatsnamen, telefoonnummers en datums).
Inzicht in Data-afhankelijkheid: Het aantonen dat er geen "one-size-fits-all" algoritme is; de prestaties hangen sterk af van de structuur van de dataset.

Resultaten

De experimenten tonen aan dat beide algoritmen uitreikers kunnen detecteren, maar met verschillende sterke en zwakke punten:

HiLRE-benadering:
- Sterk: Uitstekend presterend wanneer de verwachte data een sterke, duidelijke structuur heeft die goed te beschrijven is met een reguliere expressie (bijv. postcodes van 5 cijfers). In deze scenario's kan het 100% van de uitreikers detecteren met 0% valse positieven.
- Zwak: Presteert slecht als de "normale" data zeer divers is en geen strakke reguliere expressie toelaat (bijv. plaatsnamen met wisselende lengtes en karakters). In dergelijke gevallen kan het algoritme falen of alle data als uitreiker markeren.
LOF-benadering:
- Sterk: Werkt goed wanneer uitreikers een andere bewerkingsafstand hebben tot de normale data dan de normale data onderling. Het is robuuster bij datasets met variabele structuren (zoals telefoonnummers en huisnummers).
- Zwak: Kan moeite hebben om uitreikers te onderscheiden als ze dezelfde lengte hebben als normale data maar anders zijn (bijv. een plaatsnaam van 5 letters vs. een postcode van 5 cijfers), tenzij de hiërarchische weging wordt gebruikt om de afstand te vergroten.
- Valse Positieven: Neigt tot een hoger aantal valse positieven vergeleken met HiLRE in strakke structuren, maar is minder gevoelig voor het "overfitting" probleem van HiLRE.

Conclusie van de vergelijking:

Gebruik HiLRE als de data een vaste, goed definieerbare structuur heeft (bijv. formaten, codes).
Gebruik LOF (bij voorkeur met hiërarchische weging) als de data meer variatie heeft of als uitreikers voornamelijk verschillen in lengte of specifieke karakters binnen een brede klasse.

Significantie

Deze thesis vult een belangrijke lacune in de literatuur op door zich specifiek te richten op syntactische uitreikersdetectie in string-data. Het biedt praktische inzichten voor data-engineers en machine learning-specialisten die te maken hebben met onzuivere tekstdata. De resultaten benadrukken dat de keuze van het algoritme cruciaal is en afhankelijk moet zijn van de onderliggende structuur van de dataset. Bovendien suggereert de auteur dat uitreikersdetectie niet alleen dient voor data-cleaning, maar ook als hulpmiddel kan dienen om onbekende patronen of bias in datasets te ontdekken (bijv. het vaststellen van tijdstippen waarop ziekenhuisrapporten worden ingediend).