Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung „NAIM" (Not Another Imputation Method), die wie eine Geschichte aus dem Alltag erzählt wird:

Das Problem: Das Puzzle mit den fehlenden Teilen

Stellen Sie sich vor, Sie versuchen, ein riesiges Puzzle zu lösen, um ein Bild zu erkennen (das ist die Aufgabe einer künstlichen Intelligenz). Aber das Puzzle ist nicht vollständig: Viele Teile fehlen.

In der Welt der Daten (Tabellen mit Zahlen und Kategorien) passiert das ständig. Vielleicht hat jemand bei einer Umfrage vergessen, ein Feld auszufüllen, oder ein Sensor hat einen Fehler gemacht.

Der alte Weg (Imputation):
Bisher haben Computerwissenschaftler versucht, dieses Problem zu lösen, indem sie die fehlenden Teile des Puzzles erraten haben. Sie haben eine Schablone genommen und gesagt: „Oh, hier fehlt ein Teil? Ich male einfach einen neuen Teil hinein, der gut aussieht."

Das Problem dabei: Wenn Sie falsch raten, verfälschen Sie das Bild. Der Computer lernt aus einer Lüge. Es ist, als würde ein Koch ein Rezept kochen, bei dem ihm die Eier fehlen, und er einfach etwas Wasser in die Schüssel kippt, weil er denkt, das sei ähnlich. Das Ergebnis schmeckt oft nicht richtig.

Die Lösung: NAIM – Der Meister, der mit dem Unvollständigen spielt

Die Forscher aus Rom und Schweden haben eine neue Methode namens NAIM entwickelt. Der Name ist ein kleiner Witz: „Noch eine Methode zur Lückenfüllung". Aber das ist sie nicht!

Wie funktioniert NAIM? (Die Analogie)

Stellen Sie sich NAIM nicht als Koch vor, der Zutaten ersetzt, sondern als einen genialen Detektiv, der mit dem arbeitet, was er wirklich sieht.

Der „Unsichtbare Mantel" (Feature Embeddings):
Normalerweise stolpert ein Computer über fehlende Daten und stürzt ab. NAIM trägt jedoch einen speziellen Mantel. Wenn eine Information fehlt, weiß NAIM genau: „Aha, hier ist ein Loch." Er behandelt das Loch nicht als Fehler, sondern als eine ganz eigene Information. Er sagt: „Ich ignoriere das Loch, aber ich behandle es so, als wäre es ein spezieller, leerer Platz, der mir sagt, dass etwas fehlt." Er füllt nichts auf; er akzeptiert die Leere.
Der „Lichtschalter" (Masked Self-Attention):
Stellen Sie sich vor, NAIM schaut sich das Puzzle an. Wenn er auf ein fehlendes Teil stößt, schaltet er das Licht für genau diesen Bereich aus.
- Alte Methoden: Versuchen, das Licht anzumachen, indem sie das fehlende Teil nachahmen (und dabei oft blenden).
- NAIM: Schaltet das Licht für das fehlende Teil einfach aus. Er sagt: „Ich schaue nur auf die Teile, die leuchten (die vorhanden sind). Das dunkle Teil stört mich nicht, weil ich es einfach ausblende." So lernt er, nur aus den echten, vorhandenen Informationen zu schließen, ohne sich von den fehlenden Teilen verwirren zu lassen.
Das „Trainings-Spiel" (Regularisierung):
Das Geniale an NAIM ist, wie es lernt. Normalerweise trainiert man einen KI-Modell mit perfekten Daten. Aber NAIM macht sich das Training selbst schwerer, um stärker zu werden.
- Die Analogie: Stellen Sie sich einen Sportler vor, der nur auf einer perfekten, ebenen Straße läuft. Wenn er dann auf unebenem Gelände ist, fällt er hin.
- NAIM hingegen wird trainiert, indem ihm während des Trainings zufällig Teile seiner eigenen Daten weggenommen werden. Der Computer muss also lernen: „Okay, heute fehlen mir 20 % der Informationen. Ich muss trotzdem das Ziel erreichen!"
- Dadurch wird er extrem robust. Wenn er später in der echten Welt auf fehlende Daten trifft, denkt er: „Kein Problem, das habe ich schon tausendmal geübt."

Warum ist das so toll?

Die Forscher haben NAIM gegen 11 andere moderne KI-Modelle getestet (sowohl alte klassische Methoden als auch neue Deep-Learning-Modelle).

Das Ergebnis: NAIM hat fast immer gewonnen.
Der Grund: Weil er keine Zeit damit verliert, Dinge zu erraten, die er nicht weiß. Er nutzt das, was da ist, und ignoriert das, was fehlt, auf eine sehr intelligente Weise.

Zusammenfassung in einem Satz

Statt die fehlenden Puzzleteile mühsam und oft falsch zu erraten, hat NAIM gelernt, das Puzzle auch dann zu lösen, wenn Teile einfach fehlen, indem er sich auf die vorhandenen Teile konzentriert und die Lücken geschickt umgeht.

Es ist der Unterschied zwischen einem Menschen, der versucht, einen Satz zu verstehen, indem er die fehlenden Wörter errät (und sich dabei irrt), und einem Menschen, der den Satz versteht, weil er den Kontext der vorhandenen Wörter so gut kennt, dass die fehlenden Wörter gar nicht stören.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets" auf Deutsch:

1. Problemstellung

Das Verarbeiten fehlender Werte (Missing Values) in tabellarischen Datensätzen stellt eine erhebliche Herausforderung für das Training und Testen von KI-Modellen dar. Traditionelle Ansätze basieren meist auf Imputationstechniken, bei denen fehlende Werte vor dem Training durch Algorithmen (z. B. Mittelwert, KNN, MICE) oder Modelle (z. B. MIA bei Baum-basierten Methoden) ersetzt werden.

Nachteile bestehender Methoden: Diese Verfahren können zu Informationsverlust führen, Verzerrungen (Bias) in den Daten einführen oder erfordern eine sorgfältige Auswahl der Imputationsmethode, die oft schwierig ist.
Lücke im Deep Learning: Während Transformer-Architekturen in Bereichen wie NLP und Computer Vision erfolgreich sind, fehlt es bisher an spezifischen Lösungen, die fehlende Werte in tabularen Daten (sowohl kategorische als auch numerische) direkt und robust handhaben können, ohne sie vorher zu füllen.

2. Methodik: Das NAIM-Modell

Die Autoren stellen NAIM („Not Another Imputation Method") vor, ein neuartiges, auf Transformer basierendes Modell, das fehlende Werte ignoriert, anstatt sie zu imputieren. Die Architektur besteht aus drei Hauptkomponenten:

A. Featurespezifische Embeddings (Feature Embedding)

NAIM nutzt spezielle Lookup-Tabellen für die Einbettung von Features, die sowohl kategorische als auch numerische Daten verarbeiten:

Kategorische Features: Ähnlich wie bei TabTransformer wird ein Embedding über eine Lookup-Tabelle erstellt.
Numerische Features: Hier wird ein innovativer Ansatz gewählt. Die Lookup-Tabelle enthält zwei Einträge: einen für „vorhanden" (trainierbar) und einen für „fehlend" (nicht trainierbar, initialisiert als Nullvektor).
Mechanismus: Wenn ein Wert fehlt, wird der entsprechende Eintrag aus der Tabelle als Nullvektor verwendet. Dies ermöglicht es dem Modell, den Status „fehlend" als Teil der Repräsentation zu kodieren, ohne den Lernprozess zu stören.

B. Maskierter Self-Attention-Mechanismus (Masked Self-Attention)

Der Standard-Self-Attention-Mechanismus würde die Beiträge fehlender Werte (die als Nullvektoren kodiert sind) dennoch in die Berechnung einbeziehen, was zu suboptimalen Ergebnissen führen kann.

Neuerung: NAIM modifiziert die Attention-Matrix, um die Beiträge fehlender Werte vollständig auszublenden.
Technische Umsetzung: Es wird eine Maske $M$ verwendet, die den Spalten und Zeilen fehlender Werte den Wert $-\infty$ zuweist. Im Gegensatz zum Standard-Ansatz wird diese Maske sowohl vor als auch nach der Softmax-Funktion angewendet (unter Verwendung von ReLU), um sicherzustellen, dass die Aufmerksamkeit für fehlende Features exakt auf Null gesetzt wird. Dies verhindert, dass fehlende Daten die Gewichtung vorhandener Daten verzerren.

C. Novel Regularization-Technik

Um die Generalisierungsfähigkeit des Modells zu verbessern und sicherzustellen, dass es auch dann robust ist, wenn im Testset andere Muster von fehlenden Werten auftreten als im Training, wird eine neue Regularisierungsmethode eingeführt:

Random Masking: Während jedes Trainings-Epochs werden zufällige, nicht-fehlende Einträge in den Trainingsdaten künstlich als „fehlend" maskiert (inspiriert von Cutout).
Ziel: Das Modell lernt so, mit unvollständigen Daten umzugehen, selbst wenn das ursprüngliche Trainingset vollständig war. Dies simuliert reale Szenarien und verhindert eine Überanpassung an spezifische Datenmuster.

3. Hauptbeiträge

Architektur-Design: Entwicklung eines reinen Encoder-Transformers, der fehlende Werte durch spezifische Embeddings und eine modifizierte Attention-Mechanik direkt verarbeitet, ohne Imputation.
Regularisierung: Einführung einer zufälligen Maskierungs-Strategie, die das Modell resilient gegenüber variierenden Fehlerraten in Trainings- und Testdaten macht.
Umfassende Evaluation: Ein Vergleich mit dem State-of-the-Art (SOTA) auf 5 öffentlichen Datensätzen (Adult, BankMarketing, OnlineShoppers, SeismicBumps, Spambase).

4. Ergebnisse

NAIM wurde gegen 35 verschiedene Konfigurationen bestehender Modelle getestet, darunter:

6 Machine-Learning-Modelle (z. B. XGBoost, Random Forest, SVM, AdaBoost).
5 Deep-Learning-Modelle (z. B. TabNet, TabTransformer, FTTransformer, GRAPE, MLP).
Jede dieser Modelle wurde mit 3 verschiedenen Imputationstechniken (Mittelwert, KNN, MICE) kombiniert.
Die Tests umfassten 36 verschiedene Szenarien mit Fehlerraten von 0 % bis 75 % in Trainings- und Testdaten.

Kernergebnisse:

Überlegene Leistung: NAIM erzielte in 23 von 36 Szenarien die besten Ergebnisse (gemessen am AUC-Wert).
Statistische Signifikanz: Im Durchschnitt war NAIM in 58,7 % der Fälle statistisch signifikant besser als die Konkurrenz, während es nur in 1,6 % der Fälle schlechter abschnitt.
Robustheit: NAIM zeigte eine hohe Stabilität, selbst wenn die Trainingsdaten vollständig waren, aber die Testdaten viele fehlende Werte enthielten (ein Szenario, in dem viele andere Modelle stark an Leistung verlieren).
Vergleich mit SOTA: NAIM übertraf sowohl klassische ML-Modelle als auch fortschrittliche Transformer-Modelle, die auf Imputation angewiesen waren.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass die Notwendigkeit traditioneller Imputationsschritte für tabulare Daten mit Transformer-Architekturen überwunden werden kann.

Praktische Relevanz: NAIM vereinfacht den Daten-Preprocessing-Pipeline erheblich, da keine manuelle Auswahl oder Anwendung von Imputationsalgorithmen mehr erforderlich ist.
Resilienz: Das Modell ist besonders robust in realen Szenarien, in denen Daten unvollständig sind und die Verteilung der fehlenden Werte zwischen Training und Test variieren kann.
Zukunftsausblick: Die Autoren sehen Potenzial in der Erweiterung auf multimodale Daten, die Verbesserung der Recheneffizienz und die Anwendung in domänenspezifischen Bereichen wie der Gesundheitsversorgung, wo fehlende Daten oft informativ und nicht zufällig sind.

Zusammenfassend bietet NAIM einen neuen Standard für den Umgang mit fehlenden Werten in tabularen Daten, der auf der inhärenten Fähigkeit von Transformern basiert, selektiv auf verfügbare Informationen zu fokussieren, anstatt Lücken künstlich zu füllen. Der Code ist öffentlich verfügbar.

Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Das Problem: Das Puzzle mit den fehlenden Teilen

Die Lösung: NAIM – Der Meister, der mit dem Unvollständigen spielt

Warum ist das so toll?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Das NAIM-Modell

A. Featurespezifische Embeddings (Feature Embedding)

B. Maskierter Self-Attention-Mechanismus (Masked Self-Attention)

C. Novel Regularization-Technik

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Multimodal Explainability via Latent Shift applied to COVID-19 stratification

A Deep Learning Approach for Overall Survival Prediction in Lung Cancer with Missing Values

Effectively Leveraging Momentum Terms in Stochastic Line Search Frameworks for Fast Optimization of Finite-Sum Problems

BEFANA: A Tool for Biodiversity-Ecosystem Functioning Assessment by Network Analysis

Riemannian Laplace Approximation with the Fisher Metric