Not Another Imputation Method: A Transformer-based Model for Missing Values in Tabular Datasets

Dit artikel introduceert NAIM, een transformer-gebaseerd model dat ontbrekende waarden in tabulaire datasets direct verwerkt via specifieke embeddings en aangepaste self-attention, zonder traditionele imputatietechnieken, en hiermee superieure prestaties behaalt ten opzichte van bestaande methoden.

Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het artikel "Not Another Imputation Method" (NAIM), vertaald naar eenvoudig Nederlands met creatieve vergelijkingen.

Het Grote Probleem: De Ontbrekende Puzzelstukjes

Stel je voor dat je een enorme puzzel moet leggen om een AI-model te trainen. Maar in deze puzzel ontbreken er veel stukjes. Soms is een stukje weggebroken door een foutje bij het verzamelen, soms heeft iemand het niet willen invullen, en soms is het gewoon kwijtgeraakt.

In de wereld van data noemen we dit ontbrekende waarden.

Tot nu toe was de standaardoplossing voor dit probleem: Imputatie. Dat is een heel groot woord voor "raadsels raden". Als er een stukje ontbreekt, proberen wetenschappers een nieuw stukje te maken dat er misschien uitziet als het echte stukje. Ze vullen het gat met een gemiddelde, of ze kijken naar de buren om te zien wat er zou kunnen staan.

  • Het nadeel: Het is als het maken van een nep-puzzelstukje. Je hoopt dat het past, maar het is niet echt. Soms leidt dit tot fouten of vertekende resultaten, omdat je de AI leert op basis van verzonnen informatie in plaats van echte feiten.

De Oplossing: NAIM (Het Geniale Nieuwe Model)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd NAIM (Not Another Imputation Method). De naam is een grapje: "Nog één imputatiemethode?" Nee, bedankt.

In plaats van de gaten te vullen, leert NAIM om met de gaten te werken.

Hier is hoe het werkt, in drie simpele stappen:

1. De "Geheime Code" voor elk type stukje (Feature Embeddings)

Stel je voor dat je een doos met verschillende soorten puzzelstukjes hebt: blauwe stukjes (cijfers) en rode stukjes (woorden/categorieën).
Bij NAIM krijgt elk stukje een eigen speciale "naamplaatje" of code. Als er een stukje ontbreekt, krijgt het geen nep-code, maar een speciale "lege" code. De AI weet dan precies: "Ah, dit is een leeg vakje, maar ik weet nog steeds welk type stukje het zou moeten zijn."

2. De "Zuurstofmasker" (Masked Self-Attention)

Dit is het slimste deel. In een normaal AI-model kijken alle puzzelstukjes naar elkaar om een beslissing te nemen. Als er een stukje ontbreekt, kan dat de andere stukjes in de war brengen.
NAIM gebruikt een masker. Stel je voor dat je een bril opzet die alleen de stukjes ziet die er echt zijn. De gaten worden letterlijk "doorgestreept" of onzichtbaar gemaakt voor de AI.

  • De analogie: Het is alsof je een orkest hebt. Als een fluitist vergeten is te komen, spelen de anderen niet op zijn plek, maar ze negeren zijn afwezigheid en spelen gewoon op basis van wie er wél is. De muziek (het antwoord) blijft perfect, zonder dat je een nep-fluitist hoeft te vinden.

3. De "Oefening met Gebrekkige Data" (Regularisatie)

Dit is misschien wel het meest geniale trucje. Vaak is het probleem dat AI-modellen alleen leren als ze volledige data hebben, en dan faals ze als ze in de echte wereld met gaten geconfronteerd worden.
De auteurs laten het model tijdens het leren zomaar stukjes weglaten.

  • De analogie: Stel je voor dat je een kok traint om een gerecht te maken. Normaal geef je hem alle ingrediënten. Maar bij NAIM zeggen ze: "Vandaag doen we alsof je geen eieren hebt. Morgen doen we alsof je geen bloem hebt."
    Zo leert de kok (het model) om het gerecht te maken, ongeacht welke ingrediënten er ontbreken. Hij wordt veerkrachtig.

Waarom is dit zo belangrijk?

De auteurs hebben hun nieuwe model getest tegen 11 andere bekende modellen (zowel oude statistische methoden als moderne deep learning) op 5 verschillende datasets (zoals het voorspellen van inkomen of spam-e-mails).

De resultaten:

  • NAIM was bijna altijd sneller en beter dan de anderen.
  • De andere modellen moesten eerst tijd steken in het "raadsels raden" (imputatie) voordat ze konden beginnen. NAIM begint direct.
  • Zelfs als er 75% van de data ontbreekt, blijft NAIM goed presteren, terwijl de anderen volledig in de war raken.

Conclusie in één zin

In plaats van te proberen de gaten in je data te vullen met verzonnen stukjes (wat vaak fout gaat), heeft NAIM geleerd om te dansen op de muziek die er wel is, zelfs als er flinke stukken uit de melodie ontbreken. Het is een slimmere, robuustere manier om AI te trainen met onvolledige informatie.