A Catalog of Data Errors

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een database een enorme, chaotische bibliotheek is. In deze bibliotheek staan boeken (de gegevens) die gebruikt worden om belangrijke beslissingen te nemen, zoals welke medicijnen een arts voorschrijft of welke producten een winkel moet bestellen.

Het probleem is: veel van deze boeken zijn beschadigd, verouderd, of zelfs helemaal niet aanwezig. Als je op basis van deze slechte boeken een beslissing neemt, kan dat rampzalig zijn.

Dit wetenschappelijke artikel, geschreven door een team van experts, is als het ware een grote, nieuwe catalogus voor "slechte boeken". De auteurs hebben 35 verschillende soorten fouten in data verzameld, gedefinieerd en in drie grote groepen ingedeeld. Ze noemen dit de "Catalogus van Datafouten".

Hier is een uitleg in gewone taal, met wat creatieve vergelijkingen:

1. De Drie Grote Groepen van "Slechte Boeken"

De auteurs hebben alle fouten ingedeeld in drie hoofdcategorieën, gebaseerd op hoe ze zich voordoen:

A. De "Lege Planken" (Ontbrekende Data)

Stel je voor dat je een formulier invult voor een paspoort, maar je vergeet je geboortedatum in te vullen. Of je vult "Onbekend" in, terwijl je het gewoon niet weet.

Wat is het: Het ontbreken van informatie die er eigenlijk zou moeten zijn.
De analogie: Het is alsof je een recept hebt, maar er staat "een beetje suiker" in, zonder te zeggen hoeveel. Of je hebt een foto van een familiefeest, maar de helft van de mensen is weggeknipt.
Voorbeelden uit de tekst:
- Duidelijke leegte: Het veld is gewoon leeg (NULL).
- Verkapte leegte: Iemand vult "999" of "Onbekend" in. Het ziet eruit alsof er een getal staat, maar het is eigenlijk een leegte in een jasje.
- Vooroordeel (Bias): Stel je voor dat je een bibliotheek bouwt met alleen boeken over mannen. De "wereld" (de echte populatie) bestaat ook uit vrouwen, maar die ontbreken in je collectie. Je bibliotheek is dan vertekend.

B. De "Verkeerde Inhoud" (Onjuiste Data)

Hier staat er wel iets in het boek, maar het is gewoon fout. Het is alsof je in een recept "suiker" schrijft, maar er staat "zout" in het potje.

Wat is het: De data bestaat, maar vertegenwoordigt niet de werkelijkheid.
De analogie: Het is als een GPS die je naar de verkeerde straat stuurt, of een vertaler die "hond" vertaalt als "kat".
Voorbeelden uit de tekst:
- Spelfouten: Iemand schrijft "Amsterdam" als "Amsterdamm".
- Verwisseling: Iemand schrijft zijn voornaam in het achternaam-veld en andersom.
- Verouderde info: Je adres staat in het systeem, maar je bent verhuisd. Het is nog steeds "waar" in het systeem, maar niet meer in de echte wereld.
- Buiten de regels: Iemand is geboren in het jaar 2050 (onmogelijk) of verdient -50.000 euro (negatief salaris).
- Uitbijters: Iemand verdient 200.000 euro terwijl iedereen anders tussen de 40.000 en 60.000 verdient. Is het een fout? Misschien, misschien is het gewoon een topmanager. Het valt op, maar het is niet per se "slecht".

C. De "Dubbele Boeken" (Redundante Data)

Stel je voor dat je drie keer hetzelfde boek in de kast hebt staan. Of dat je twee boeken hebt die over dezelfde persoon gaan, maar met verschillende namen.

Wat is het: Overbodige herhaling of data die niet bij dit systeem hoort.
De analogie: Het is alsof je in je agenda drie keer dezelfde afspraak hebt staan, of alsof je een foto van je vriend hebt, maar de naam eronder is "Vriend van Jan" in plaats van "Jan".
Voorbeelden uit de tekst:
- Dubbele tuples: Twee rijen in een tabel die precies dezelfde persoon beschrijven, maar misschien met een klein verschil (bijv. "J. Smith" vs "John Smith").
- Irrelevante data: Een rij in een tabel over "Certificaten" die eigenlijk een certificaat bevat dat het bedrijf nooit afgeeft (bijv. een Microsoft-certificaat in een SAP-database).

2. Waarom is deze catalogus zo belangrijk?

Vroeger hadden experts verschillende lijsten met fouten, maar die waren vaak onduidelijk of incomplete. Sommige fouten hadden verschillende namen, en andere namen werden voor verschillende fouten gebruikt. Het was alsof iedereen een eigen woordenboek had.

De auteurs van dit artikel hebben:

Alle lijsten samengevoegd: Ze hebben 35 verschillende soorten fouten verzameld.
Duidelijke definities gegeven: Voor elke fout geven ze een exacte definitie en een voorbeeld.
Nieuwe fouten toegevoegd: Ze hebben fouten toegevoegd die belangrijk zijn voor moderne kunstmatige intelligentie (AI), zoals "vooroordeel" (bias) en "uitbijters" (outliers), die in oude lijsten vaak ontbraken.

3. Wat kun je hiermee doen?

Deze catalogus is als een diagnose-handleiding voor data.

Voor data-analisten: Als je ziet dat je AI-model fouten maakt, kun je in deze catalogus kijken: "Ah, dit is een 'verkapte missende waarde' of een 'verouderde data'-probleem."
Voor softwareontwikkelaars: Je kunt nu specifieke tools bouwen die precies op die 35 fouten letten, in plaats van maar wat te gissen.
Voor bedrijven: Het helpt om te begrijpen waarom hun rapporten soms gekke uitkomsten geven. Misschien is het niet de computer, maar is de data gewoon "vuil".

Samenvatting in één zin

Dit artikel is een uitgebreide gids die alle mogelijke manieren beschrijft waarop data "ziek" kan zijn (van lege velden tot verouderde info), zodat we die ziektes beter kunnen diagnosticeren en genezen voordat ze onze beslissingen verpesten.

Each language version is independently generated for its own context, not a direct translation.

Titel: A Catalog of Data Errors (Een Catalogus van Datafouten)

Auteurs: Divya Bhadauria, Hazar Harmouch, Felix Naumann, Divesh Srivastava, Lisa Ehrlinger.
Publicatie: ACM Computing Surveys (2026).

1. Het Probleem

Datafouten zijn wijdverbreid in real-world databases en hebben een ernstig negatief effect op downstream-toepassingen, zoals machine learning-pijplijnen en zakelijke analytics-rapporten. Hoewel er veel onderzoek is gedaan naar datakwaliteit (DQ), ontbreekt er een gestructureerde, formele en uitgebreide taxonomie van datafouten.

Bestaande tekortkomingen: Huidige classificaties zijn vaak informeel, niet compleet, en behandelen niet het volledige spectrum van fouttypes. Veel minder bekende fouten (zoals vermomde ontbrekende waarden of woordtransposities) worden onderbelicht.
Verwarring: Er is terminologische inconsistentie tussen verschillende werken (bijv. hetzelfde woord voor verschillende fouten, of verschillende woorden voor dezelfde fout).
Nieuwe uitdagingen: Met de opkomst van AI moeten statistische fouten zoals bias en outliers vaker worden gedetecteerd, maar deze worden zelden opgenomen in bestaande taxonomieën.
Gevolgen: Slechte datakwaliteit leidt tot aanzienlijke financiële verliezen (naar schatting honderden miljarden dollars wereldwijd) en ondermijnt de betrouwbaarheid van AI-modellen.

2. Methodologie

De auteurs hebben een systematische aanpak gevolgd om een nieuwe, uitgebreide catalogus te creëren:

Bronnenanalyse: Ze hebben vijf bestaande taxonomieën op datafouten geanalyseerd ([44, 61, 66, 90, 102]) en deze gescreend op kwaliteit en dekking.
Consolidatie en Uitbreiding:
- Ze hebben een gezamenlijke lijst samengesteld uit deze bestaande taxonomieën.
- Ze hebben de lijst uitgebreid met subtypes en varianten die in eerdere werken ontbraken.
- Ze hebben recent opgekomen fouttypes toegevoegd die relevant zijn voor AI (zoals bias en outliers).
Terminologie-vereenvoudiging: Ze hebben complexe of misbruikte labels gestandaardiseerd (bijv. "Violation of Company and Government Regulations" hernoemd naar "Legal Rule Violations").
Formalisatie: Voor elk fouttype hebben ze een formele definitie opgesteld met behulp van wiskundige notaties (zoals mapping-functies $M(e)$ en $M^*(r)$ ) en concrete voorbeelden gebaseerd op een doorlopend voorbeeld (een "Employment database").
Classificatie: Ze hebben de fouten ingedeeld in drie niet-overlappende categorieën op basis van hun manifestatie in de data: Ontbrekend, Onjuist en Redundant.

3. Belangrijkste Bijdragen

De kernbijdrage van het artikel is een catalogus van 35 distincte datafouttypes en foutindicatoren, onderverdeeld als volgt:

A. Ontbrekende Data (Missing Data)

Fouten waarbij vereiste data afwezig is, hoewel de realiteit wel een waarde heeft.

Expliciete ontbrekende waarden: NULL-waarden in verplichte velden.
Vervormde ontbrekende waarden (Disguised Missing Values - DMV): Waarden die syntactisch geldig zijn maar semantisch ontbreken (bijv. "Unknown", -99, of een nep-TaxID).
Gedeeltelijk lege tuples/attributen: Tuples of kolommen met een hoog percentage ontbrekende waarden.
Ontbrekende tuples: Real-world entiteiten die niet in de database staan.
Lege attributen: Een kolom die volledig leeg is door slecht schema-design.
Bias (Foutindicator): Een vertekende verdeling van data door het ontbreken van bepaalde groepen (bijv. selectieve datacollectie).

B. Onjuiste Data (Incorrect Data)

Data die wel aanwezig is, maar de realiteit niet correct weergeeft. Dit wordt onderverdeeld in vier families:

Tekstuele fouten:
- Out-of-Vocabulary (OOV) woorden: Woorden die niet in de gedefinieerde vocabulaire voorkomen.
- Spelfouten, Typo's, Misscans (OCR-fouten) en Verkeerde encoding: Karakter-niveau afwijkingen.
- Synoniemen: Verschillende termen voor dezelfde entiteit (bijv. "GER" vs. "Germany").
- Woordtranspositie: Verwisseling van woorden binnen een veld (bijv. "Bond James" i.p.v. "James Bond").
Niet-conforme fouten:
- Verkeerde veldwaarde (Misfielded value): Een waarde in het verkeerde attribuut.
- Ruis (Noise): Onbedoelde afwijkingen door meetfouten.
- Semantisch ambigu data: Waarden die naar meerdere entiteiten kunnen verwijzen.
- Outliers: Statistische afwijkingen die verdacht zijn.
- Syntax schendingen en Heterogene formatting: Verkeerde datums of inconsistent gebruik van formaten.
- Verkeerde eenheid: Waarden in een andere meeteenheid dan verwacht.
Regelenschendingen (Rule Violations):
- Constraint schendingen: Uniekheid, domein, referentiële integriteit.
- Afhankelijkheidsschendingen: Functionele afhankelijkheden (FD), conditionele FD's, cyclische afhankelijkheden.
- Bedrijfsregels, DBA-regels en Wettelijke regels (bijv. GDPR): Schending van domeinkennis of wetgeving.
Verouderde data: Data die ooit correct was, maar niet meer de huidige realiteit weerspiegelt.

C. Redundante Data

Data die onnodig wordt herhaald of die geen waarde toevoegt.

Dubbele tuples: Meerdere tuples die verwijzen naar dezelfde real-world entiteit (ook bij verschillende formaten).
Irrelevante data: Tuples die geen informatie bevatten die bij de relatie hoort (bijv. een Azure-certificaat in een tabel die alleen SAP-certificaten moet bevatten).

Aanvullende secties:

Metadata-fouten: Fouten in het schema zelf (bijv. dubbele attributen, ontbrekende constraints).
Gerelateerde data-karakteristieken: Eigenschappen die geen fouten zijn maar de bruikbaarheid beïnvloeden (bijv. data die moeilijk te aggregeren is of ontoegankelijk is).

4. Resultaten

Unificatie: De auteurs hebben een eenduidig raamwerk gecreëerd dat terminologische inconsistenties uit eerdere werken oplost.
Formalisering: Voor elk van de 35 fouttypes is een formele definitie gegeven, vaak met wiskundige notatie en voorbeelden uit de "Employment database".
Gedetailleerde classificatie: De fouten zijn niet alleen benoemd, maar ook gekoppeld aan hun manifestatie (waarde-, tuple-, attribuut-, tabel- of database-niveau) en context (syntactisch vs. semantisch).
Identificatie van gaten: De catalogus toont aan dat veel bestaande tools en taxonomieën specifieke fouttypes (zoals DMV's en OOV-woorden) missen of onvoldoende behandelen.

5. Betekenis en Impact

Voor Praktici (Data Engineers, Data Scientists): De catalogus biedt een gestructureerde basis om validatiechecks te implementeren, data-cleaning strategieën te plannen en te begrijpen welke fouttypes specifieke tools vereisen. Het helpt bij het identificeren van onderbelichte fouttypes die nog geen tool-ondersteuning hebben.
Voor Onderzoekers: Het biedt een gemeenschappelijke taal en een uitgebreide lijst van fouttypes om nieuwe detectie- en correctiemethoden (inclusief AI-gedreven methoden) op te testen. Het benadrukt de noodzaak van onderzoek naar de oorzaak van fouten (bijv. MCAR vs. MNAR) en de ontwikkeling van tools die niet alleen fouten vinden, maar ook het type fout classificeren.
Toekomstperspectief: De auteurs pleiten voor verdere automatisering van foutclassificatie, formalisatie van metadata-fouten, en uitbreiding van deze taxonomie naar andere data-modaliteiten (grafieken, tekst, tijdreeksen).

Kortom, dit artikel fungeert als een fundamenteel naslagwerk voor datakwaliteit, dat de brug slaat tussen theoretische definities en praktische implementatie van datacleaning in de moderne AI- en database-omgevingen.