CoVAE: correlated multimodal generative modeling

Dit paper introduceert CoVAE, een nieuwe generatieve architectuur die de statistische correlaties tussen modaliteiten behoudt om betere cross-modale reconstructie en onzekerheidskwantificering mogelijk te maken dan bestaande multimodale VAE-modellen.

Federico Caretti, Guido Sanguinetti

Gepubliceerd 2026-03-03
📖 5 min leestijd🧠 Diepgaand
⚕️

Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

CoVAE: De slimme vertaler die weet wat hij niet weet

Stel je voor dat je een kunstenaar bent die portretten tekent. Je hebt twee soorten informatie over een persoon: een foto van hun gezicht en een beschrijving van hun stem. Normaal gesproken zouden deze twee dingen perfect op elkaar aansluiten. Maar wat als je alleen de foto hebt en je moet de stem beschrijven? Of andersom?

Dit is precies het probleem waar kunstmatige intelligentie (AI) mee worstelt wanneer ze met "meerdere zintuigen" (modi) werkt, zoals tekst én beelden, of in dit geval: verschillende soorten biologische data.

Het oude probleem: De "Oververzekerde" AI

In de wereld van AI bestaan er modellen die proberen deze verschillende informatiebronnen samen te voegen in één "geheugenruimte" (latente ruimte). De huidige methoden doen dit vaak alsof ze een vergaarbak gebruiken. Ze nemen de foto en de tekst, gooien ze in één bak, en trekken er één enkel punt uit.

Het probleem hiermee is dat deze modellen te zeker worden.
Stel je voor dat je een vriend vraagt: "Hoe klinkt zijn stem?" terwijl je alleen naar zijn foto kijkt. Een slimme mens zegt: "Ik weet het niet precies, maar hij klinkt waarschijnlijk als iemand met een zware stem." Een domme, oververzekerde robot zegt echter: "Hij klinkt exact zo!" en bedenkt een stem die perfect past bij de foto, maar die in werkelijkheid misschien helemaal niet klopt.

In de wetenschap is dit gevaarlijk. Als je een AI gebruikt om ziektes te voorspellen op basis van twee soorten tests, en je mist één test, wil je dat de AI zegt: "De kans op ziekte is X, maar omdat ik één test mis, is er een grote onzekerheid." De oude modellen zeggen echter: "Het is 100% zeker," wat leidt tot foutieve conclusies. Ze vergeten dat de twee dingen (foto en stem) niet altijd 100% met elkaar verbonden zijn; er is altijd een beetje "ruis" of variatie.

De oplossing: CoVAE (De Correlatie-Meester)

De auteurs van dit papier hebben een nieuwe manier bedacht, genaamd CoVAE.

In plaats van alle informatie in één strakke, eenduidige knoop te stoppen, bouwt CoVAE een geheugenruimte met een netje. Dit netje houdt de verschillende informatiebronnen bij elkaar, maar laat ze ook een beetje bewegen.

Hier is hoe het werkt, met een analogie:

  1. Het Netje (De Correlatie): Stel je voor dat je twee ballonnen hebt die aan elkaar vastzitten met een elastiekje. Als je de ene ballon optilt (de foto), beweegt de andere (de stem) ook mee, maar niet exact op dezelfde hoogte. Het elastiekje vertegenwoordigt de correlatie. CoVAE leert hoe strak dat elastiekje moet zijn.
  2. Onzekerheid is goed: Als je alleen de eerste ballon ziet, weet CoVAE: "Oké, de tweede ballon beweegt mee, maar omdat ik hem niet zie, kan hij een beetje links of rechts hangen." CoVAE tekent daarom een groot, vaag gebied waar de tweede ballon zou kunnen zijn. Dit is een eerlijke weergave van onzekerheid.
  3. De Oude Methode: De oude modellen deden alsof de ballonnen met lijm aan elkaar waren geplakt. Als je de ene optilt, staat de andere exact op die plek. Ze tekenen een heel klein, scherp puntje. Dit ziet er mooi uit, maar het is onrealistisch als je een deel van de informatie mist.

Wat hebben ze getest?

De onderzoekers hebben CoVAE getest op twee manieren:

  1. Gemaakte cijfers (MNIST): Ze maakten een dataset van cijfers (zoals 1, 2, 3) waarbij ze de cijfers bewust met elkaar verbonden hadden.

    • Resultaat: CoVAE kon perfect zien hoe sterk de cijfers met elkaar verbonden waren. Als ze een cijfer misten, kon CoVAE het ontbrekende cijfer invullen met de juiste "onscherpte". De oude modellen maakten altijd een perfect scherp cijfer, zelfs als ze het niet konden weten, en maakten daardoor fouten.
  2. Medische data (Kanker): Ze keken naar echte patiëntdata met twee soorten tests: mRNA en miRNA (soorten genetische informatie).

    • Resultaat: CoVAE bleek de enige te zijn die kon zeggen: "Als we deze test missen, is onze voorspelling minder zeker." Het kon ook beter de ontbrekende test voorspellen op basis van de andere, zonder alsof het een waarzegger was.

Waarom is dit belangrijk?

In de wetenschap, en vooral in de geneeskunde, is het erkennen van onzekerheid net zo belangrijk als het vinden van een antwoord.

  • Als een AI zegt: "Deze patiënt heeft kanker," maar je mist een belangrijke test, wil je weten: "Hoe zeker is dat?"
  • Oude modellen zeggen: "100% zeker." (Gevaarlijk!)
  • CoVAE zegt: "90% zeker, maar omdat we een test missen, is er een kans dat het anders is." (Veilig en eerlijk!)

Conclusie

CoVAE is als een slimme detective die weet dat hij niet alles kan weten. Hij gebruikt de verbanden tussen verschillende bewijsstukken om een goed beeld te vormen, maar hij houdt ook rekening met de gaten in het bewijs. In plaats van een vals, perfect beeld te tekenen, tekent hij een realistisch beeld dat laat zien waar de twijfel zit.

Dit maakt CoVAE een krachtig hulpmiddel voor de toekomst, vooral in gebieden waar fouten maken duur kan zijn, zoals bij het diagnosticeren van ziektes.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →