Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Dit paper introduceert fedCI en fedCI-IOD, privacybehoudende federatieve methoden die causale ontdekking mogelijk maken over heterogene, gedistribueerde datasets met latente confounding door middel van geavanceerde conditionele onafhankelijkheidstests.

Maximilian Hahn, Alina Zajak, Dominik Heider, Adèle Helena Ribeiro

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe een groep artsen samen een ziektekaart tekent zonder elkaars patiëntdossiers te delen

Stel je voor dat er in heel Europa honderden ziekenhuizen zijn. Elk ziekenhuis heeft duizenden patiëntdossiers met informatie over ziektes, levensstijl en genetica. Ze willen samenwerken om één groot, compleet plaatje te krijgen van wat veroorzaakt welke ziekte (bijvoorbeeld: "Is roken de oorzaak van longkanker, of zit er een verborgen factor achter?").

Maar er is een groot probleem:

  1. Privacy: Wetten zeggen dat ze de dossiers niet naar één centrale plek mogen sturen.
  2. Verschillen: Ziekenhuis A heeft gegevens over roken en longkanker, maar niet over bloeddruk. Ziekenhuis B heeft wel bloeddruk, maar geen roken.
  3. Verborgen oorzaken: Soms is er een onbekende factor (zoals een specifiek gen of milieu) die de resultaten beïnvloedt, maar die niemand direct meet.

Deze paper introduceert een slimme nieuwe manier om dit op te lossen, genaamd fedCI en fedCI-IOD. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Samenvatting" vs. De "Gemeenschappelijke Kracht"

Vroeger probeerden onderzoekers dit op te lossen door alleen de samenvattingen van de onderzoeken te vergelijken (zoals een meta-analyse).

  • De analogie: Stel je voor dat elke dokter een klein raam heeft. Dokter A kijkt naar een boom, Dokter B naar een auto. Als ze alleen vertellen wat ze zien ("Ik zie groen", "Ik zie metaal"), kunnen ze samen nooit begrijpen dat ze naar een vrachtwagen met een boom erop kijken. Ze missen de grote context.
  • Het gevolg: Ze komen tot onjuiste conclusies of missen belangrijke verbanden omdat elk ziekenhuis te weinig data heeft om zeker te zijn.

2. De Oplossing: De "Geheime Rekenmachine" (fedCI)

De auteurs hebben een nieuw systeem bedacht, fedCI. Dit werkt als een slimme, geheime rekenmachine die overal tegelijkertijd werkt.

  • Hoe het werkt: In plaats van de dossiers te sturen, sturen de ziekenhuizen alleen kleine, versleutelde stukjes wiskundige informatie naar een centrale server.
  • De analogie: Stel je voor dat elke dokter een puzzelstukje heeft. Ze mogen elkaar het stukje niet laten zien. In plaats daarvan sturen ze een code naar een centrale computer. De computer voegt de codes samen en bouwt het volledige puzzelbeeld op, zonder dat iemand ooit het originele stukje van een ander ziet.
  • Het resultaat: De computer ziet nu alsof alle dossiers bij elkaar liggen (zoals één gigantisch ziekenhuis), maar de privacy van elke patiënt blijft 100% gewaarborgd. Zelfs als ziekenhuis A geen gegevens heeft over bloeddruk, helpt het toch mee met de berekening voor andere variabelen.

3. De "Verborgen Oorzaken" (Latente Verwarring)

Soms lijken twee dingen met elkaar te maken te hebben, terwijl er eigenlijk een derde, onzichtbare factor is die beide beïnvloedt (bijvoorbeeld: ijsjes eten en verdrinken gaan samen, maar de echte oorzaak is de zomer).

  • De uitdaging: Veel oude methoden gaan er ten onrechte van aan dat ze alles hebben gemeten.
  • De oplossing: Het nieuwe systeem (fedCI-IOD) is slim genoeg om te zeggen: "Hé, hier klopt iets niet. Er moet een verborgen factor zijn." Het tekent een kaart met vraagtekens op de plekken waar de verborgen factor zit, in plaats van een foutief antwoord te geven.

4. De "Grote Kaart" (IOD)

De auteurs hebben ook een nieuwe versie gemaakt van een bestaande methode (IOD) die deze puzzelstukken samenvoegt tot één grote "Oorzaak-En-Gevolg-kaart" (een grafiek).

  • De verbetering: De oude methode kon dit niet goed doen als de ziekenhuizen verschillende variabelen hadden. De nieuwe methode kan de ontbrekende stukken "invullen" door slim te redeneren over wat er niet samenhangt.
  • Voorbeeld: Als Ziekenhuis A weet dat A en B samenhangen, en Ziekenhuis B weet dat B en C samenhangen, kan het systeem afleiden hoe A en C met elkaar verbonden zijn, zelfs als geen enkel ziekenhuis A en C samen heeft gemeten.

5. De "App" voor Iedereen

Het mooiste is dat de auteurs dit niet alleen als een theorie hebben achtergelaten. Ze hebben een webapplicatie gebouwd.

  • De analogie: Het is alsof ze een kant-en-klare "Google Maps" hebben gebouwd voor oorzaken en gevolgen. Ziekenhuizen kunnen zich aanmelden, hun data uploaden (zonder het te delen), en krijgen direct een gezamenlijk antwoord.

Samenvatting in één zin:

Deze paper laat zien hoe we samen kunnen werken om de waarheid over ziektes en oorzaken te vinden, zelfs als we onze data niet mogen delen en als we niet alles hebben gemeten, door slimme wiskunde te gebruiken in plaats van het delen van gevoelige dossiers.

Waarom is dit belangrijk?
Het betekent dat we in de toekomst sneller en veiliger nieuwe medicijnen kunnen ontwikkelen en ziektes beter kunnen begrijpen, zonder dat de privacy van patiënten in gevaar komt. Het is een win-win voor wetenschap en privacy.