Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

Deze paper introduceert PRIMO, een model dat met behulp van een toezicht op latente variabelen ontbrekende modaliteiten imputeert om voorspellende prestaties te behouden en de impact van elke modality op individuele voorbeelden te kwantificeren, zelfs wanneer data incompleet is.

Divyam Madaan, Sumit Chopra, Kyunghyun Cho

Gepubliceerd 2026-02-20
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een arts bent die een patiënt moet diagnosticeren. Normaal gesproken heb je twee soorten informatie nodig: de geschiedenis van de patiënt (leeftijd, eerdere ziekten) en de huidige metingen (bloeddruk, hartslag, ademhaling).

In de echte wereld is het echter vaak zo dat je niet alles tegelijk hebt. Soms komt een patiënt binnen en heb je alleen de geschiedenis, maar zijn de metingen nog niet klaar. Of je hebt de metingen, maar de geschiedenis ontbreekt.

De meeste huidige kunstmatige intelligentie (AI) modellen doen alsof ze altijd alle informatie hebben. Als een stukje data ontbreekt, proberen ze die data vaak te "verzinnen" (imputatie) en doen ze alsof het echt is. Het probleem hiermee is dat er vaak veel manieren zijn om die ontbrekende data in te vullen, en niet elke manier is even goed voor de diagnose.

PRIMO is een nieuwe, slimme manier om met dit probleem om te gaan. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. In plaats van "verzinnen", "dromen"

Stel je voor dat je een detective bent die een raadsel moet oplossen, maar één belangrijk stukje bewijs ontbreekt.

  • De oude manier: De detective probeert het ontbrekende stukje bewijs te raden, schrijft het op als ware het feit, en trekt daar zijn conclusie uit. Als hij het verkeerd raadt, is zijn conclusie ook verkeerd.
  • De PRIMO-manier: De detective denkt: "Oké, dit stukje bewijs ontbreekt. Laten we eens dromen over wat het zou kunnen zijn."
    Hij bedenkt 100 verschillende scenario's voor dat ontbrekende stukje bewijs. In het ene scenario is de patiënt erg ziek, in het andere is hij gezond. Hij kijkt dan naar al die 100 scenario's.
    • Als in bijna alle scenario's de diagnose hetzelfde is (bijvoorbeeld: "Geen gevaar"), dan weet hij: "Oké, het ontbrekende bewijs maakt niet uit, de diagnose is duidelijk."
    • Als de diagnose in sommige scenario's "Gezond" is en in andere "Doodziek", dan weet hij: "Ah, dit ontbrekende stukje bewijs is cruciaal! Ik weet het nog niet zeker."

2. De "Gokkast" van de onzekerheid

PRIMO gebruikt een wiskundig trucje (een "latente variabele") om die 100 scenario's te genereren. Het is alsof je een gokkast trekt die alle mogelijke waarden voor de ontbrekende data produceert.

  • Als je alles hebt: De gokkast geeft een heel smal, zeker antwoord. De onzekerheid is laag.
  • Als je iets mist: De gokkast geeft een breed scala aan antwoorden. De onzekerheid is hoog.

De kracht van PRIMO is dat het deze onzekerheid meet. Het zegt niet alleen "Ik denk dat de patiënt ziek is", maar ook: "Ik denk dat de patiënt ziek is, maar als we de ademhalingmetingen hadden, zou ik misschien twijfelen."

3. Waarom is dit zo handig? (De "Wat als"-vraag)

In het artikel wordt getoond hoe dit werkt in drie verschillende situaties:

  • De Simpele Test (XOR): Stel je hebt twee lichtknoppen. Als je alleen de ene ziet, weet je soms al wat er gebeurt. Maar soms hangt het antwoord af van de tweede knop. PRIMO ziet precies wanneer de tweede knop belangrijk is en wanneer hij dat niet is.
  • Foto's en Geluid (AV-MNIST): Stel je moet een cijfer herkennen op basis van een tekening én een geluidsopname. Soms is de tekening zo duidelijk dat het geluid er niet toe doet. Soms is de tekening wazig en is het geluid cruciaal. PRIMO kan voor elk individueel cijfer zeggen: "Voor dit cijfer maakt het geluid niet uit, maar voor dat andere wel."
  • Ziekenhuisdata (MIMIC-III): Dit is het belangrijkste.
    • Bij het voorspellen of een patiënt kanker heeft, bleek dat de statische gegevens (leeftijd, voorgeschiedenis) vaak genoeg waren. Het ontbreken van de dagelijkse metingen deed de voorspelling niet veel veranderen.
    • Bij het voorspellen van longziektes was het echter heel anders. Zonder de dagelijkse metingen (ademhaling, zuurstof) was de AI volledig in de war. PRIMO liet zien: "Voor longziektes is de ontbrekende data levensbelangrijk."

Samenvattend

PRIMO is als een slimme assistent die niet probeert de ontbrekende puzzelstukjes te vervalsen, maar die eerlijk zegt: "Ik heb dit stukje niet, maar laten we kijken wat er gebeurt als we aannemen dat het dit is, of dat, of dat..."

Hierdoor krijgen artsen of beslissingsmakers twee dingen:

  1. Een goede voorspelling, zelfs als data ontbreekt.
  2. Een waarschuwing: "Wees voorzichtig, deze voorspelling hangt sterk af van data die we nu niet hebben."

Dit helpt voorkomen dat we blindelings vertrouwen op een AI die eigenlijk "gokt" omdat een belangrijk stukje informatie ontbreekt. Het maakt de AI transparanter en veiliger voor de echte wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →