Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen
Each language version is independently generated for its own context, not a direct translation.
Stellen Sie sich vor, Ihre Datenbank ist wie ein riesiges, gut organisiertes Kochbuch für ein Restaurant. Wenn das Kochbuch perfekt ist, können die Köche (die Computerprogramme oder KI-Modelle) köstliche Gerichte (Ergebnisse, Vorhersagen, Geschäftsentscheidungen) zaubern.
Aber was passiert, wenn im Kochbuch Fehler stecken? Vielleicht fehlt eine Zutat, die Menge ist falsch geschrieben, oder es steht doppelt dasselbe Rezept drin? Dann wird das Essen verdorben. Genau darum geht es in diesem Papier: Die Autoren haben einen großen Katalog aller möglichen Fehler erstellt, die in solchen digitalen "Kochbüchern" (Datenbanken) vorkommen können.
Hier ist die Erklärung in einfachen Worten, unterteilt in drei große Kategorien, wie ein Hausmeister, der sein Haus aufräumt:
1. Das Haus ist unvollständig (Fehlende Daten)
Stellen Sie sich vor, Sie gehen in Ihr Haus und merken, dass ganze Räume fehlen oder Möbel weg sind.
- Leere Lücken: Ein Wert fehlt einfach (z. B. das Geburtsdatum eines Mitarbeiters ist nicht eingetragen). Das ist wie ein leeres Regal.
- Getarnte Lücken: Das ist tückischer. Es sieht aus, als wäre etwas da, aber es ist eigentlich "leer". Zum Beispiel steht bei der Telefonnummer "000-000-0000" oder "Unbekannt". Das System denkt, es sei eine echte Nummer, aber es ist nur ein Platzhalter für "fehlt".
- Verzerrte Sicht (Bias): Wenn in Ihrem Kochbuch nur Rezepte für vegetarische Gerichte stehen, aber Sie eigentlich Fleischgerichte kochen wollen, ist das Buch "verzerrt". Es fehlen ganze Gruppen von Daten, was zu falschen Schlussfolgerungen führt.
2. Das Haus ist in Unordnung (Falsche Daten)
Hier sind die Möbel da, aber sie stehen im falschen Raum oder sind kaputt.
- Schreibfehler & Verwechslungen: Jemand hat "Müller" als "Moller" geschrieben oder den Vornamen und Nachnamen vertauscht ("Bond James" statt "James Bond"). Das ist wie wenn Sie im Rezept "Zimt" statt "Zimt" (aber falsch geschrieben) lesen – der Koch weiß nicht, was gemeint ist.
- Falsche Einheiten: Jemand trägt das Gehalt in Euro ein, aber das System erwartet Dollar. Das ist, als würde man in einem Rezept "Tassen" statt "Gramm" angeben – das Ergebnis wird katastrophal.
- Veraltete Infos: Ein Mitarbeiter ist umgezogen, aber im Adressbuch steht noch die alte Adresse. Das ist wie ein Kochbuch, das Rezepte aus den 90ern enthält, aber keine modernen Zutaten kennt.
- Regelbrüche: Jeder Mitarbeiter muss genau einem Chef unterstellt sein. Wenn jemand zwei Chefs hat, bricht er die Regel. Oder wenn zwei Mitarbeiter die gleiche E-Mail-Adresse haben – das ist verboten!
- Ausreißer: Ein Mitarbeiter verdient 200.000 €, alle anderen 50.000 €. Ist das ein Fehler (Tippfehler) oder ist er wirklich so reich? Das System muss das erst prüfen.
3. Das Haus ist überfüllt (Überflüssige Daten)
Hier haben Sie Dinge doppelt oder dreifach, die Sie gar nicht brauchen.
- Doppelte Einträge: Sie haben zwei Einträge für denselben Mitarbeiter, einmal als "Sara Müller" und einmal als "Sara Moller". Das verwirrt den Koch, der denkt, es wären zwei verschiedene Leute.
- Unpassende Daten: Im Kochbuch für deutsche Gerichte steht plötzlich ein Rezept für Sushi, das hier gar nicht hingehört. Das ist "irrelevantes" Datenmaterial, das nur Platz wegnimmt.
Warum ist dieser Katalog wichtig?
Früher haben Forscher nur grobe Begriffe wie "Daten sind schlecht" verwendet. Das ist wie zu sagen: "Das Haus ist kaputt." Aber welche Art von Reparatur braucht man? Muss ein Fenster getauscht werden (Schreibfehler) oder muss ein ganzer Raum neu gebaut werden (fehlende Daten)?
Dieser Katalog ist wie ein Werkzeugkasten für Daten-Reinigung:
- Erkenntnis: Er hilft Daten-Experten genau zu sagen: "Aha, das ist ein 'versteckter fehlender Wert' und kein normaler Fehler."
- Lösung: Wenn man den genauen Fehler kennt, kann man die richtige Reparaturmethode wählen. Man kann nicht das Gleiche tun, um einen Tippfehler zu korrigieren, wie um eine fehlende Adresse zu finden.
- KI-Sicherheit: Da heute viele Künstliche Intelligenzen (KI) mit diesen Daten lernen, ist es entscheidend, dass das "Kochbuch" sauber ist. Sonst lernt die KI falsche Dinge und trifft schlechte Entscheidungen.
Zusammenfassend:
Die Autoren haben 35 verschiedene Arten von "Daten-Dreck" gesammelt, benannt und definiert. Sie sagen uns: "Schauen Sie nicht nur auf den Dreck, sondern erkennen Sie genau, um welche Art von Dreck es sich handelt, damit Sie ihn richtig wegwischen können." Das hilft Unternehmen, bessere Entscheidungen zu treffen und KI-Systeme zuverlässiger zu machen.
Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?
Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.