Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe een groep artsen samen een ziektekaart tekent zonder elkaars patiëntdossiers te delen

Stel je voor dat er in heel Europa honderden ziekenhuizen zijn. Elk ziekenhuis heeft duizenden patiëntdossiers met informatie over ziektes, levensstijl en genetica. Ze willen samenwerken om één groot, compleet plaatje te krijgen van wat veroorzaakt welke ziekte (bijvoorbeeld: "Is roken de oorzaak van longkanker, of zit er een verborgen factor achter?").

Maar er is een groot probleem:

Privacy: Wetten zeggen dat ze de dossiers niet naar één centrale plek mogen sturen.
Verschillen: Ziekenhuis A heeft gegevens over roken en longkanker, maar niet over bloeddruk. Ziekenhuis B heeft wel bloeddruk, maar geen roken.
Verborgen oorzaken: Soms is er een onbekende factor (zoals een specifiek gen of milieu) die de resultaten beïnvloedt, maar die niemand direct meet.

Deze paper introduceert een slimme nieuwe manier om dit op te lossen, genaamd fedCI en fedCI-IOD. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Samenvatting" vs. De "Gemeenschappelijke Kracht"

Vroeger probeerden onderzoekers dit op te lossen door alleen de samenvattingen van de onderzoeken te vergelijken (zoals een meta-analyse).

De analogie: Stel je voor dat elke dokter een klein raam heeft. Dokter A kijkt naar een boom, Dokter B naar een auto. Als ze alleen vertellen wat ze zien ("Ik zie groen", "Ik zie metaal"), kunnen ze samen nooit begrijpen dat ze naar een vrachtwagen met een boom erop kijken. Ze missen de grote context.
Het gevolg: Ze komen tot onjuiste conclusies of missen belangrijke verbanden omdat elk ziekenhuis te weinig data heeft om zeker te zijn.

2. De Oplossing: De "Geheime Rekenmachine" (fedCI)

De auteurs hebben een nieuw systeem bedacht, fedCI. Dit werkt als een slimme, geheime rekenmachine die overal tegelijkertijd werkt.

Hoe het werkt: In plaats van de dossiers te sturen, sturen de ziekenhuizen alleen kleine, versleutelde stukjes wiskundige informatie naar een centrale server.
De analogie: Stel je voor dat elke dokter een puzzelstukje heeft. Ze mogen elkaar het stukje niet laten zien. In plaats daarvan sturen ze een code naar een centrale computer. De computer voegt de codes samen en bouwt het volledige puzzelbeeld op, zonder dat iemand ooit het originele stukje van een ander ziet.
Het resultaat: De computer ziet nu alsof alle dossiers bij elkaar liggen (zoals één gigantisch ziekenhuis), maar de privacy van elke patiënt blijft 100% gewaarborgd. Zelfs als ziekenhuis A geen gegevens heeft over bloeddruk, helpt het toch mee met de berekening voor andere variabelen.

3. De "Verborgen Oorzaken" (Latente Verwarring)

Soms lijken twee dingen met elkaar te maken te hebben, terwijl er eigenlijk een derde, onzichtbare factor is die beide beïnvloedt (bijvoorbeeld: ijsjes eten en verdrinken gaan samen, maar de echte oorzaak is de zomer).

De uitdaging: Veel oude methoden gaan er ten onrechte van aan dat ze alles hebben gemeten.
De oplossing: Het nieuwe systeem (fedCI-IOD) is slim genoeg om te zeggen: "Hé, hier klopt iets niet. Er moet een verborgen factor zijn." Het tekent een kaart met vraagtekens op de plekken waar de verborgen factor zit, in plaats van een foutief antwoord te geven.

4. De "Grote Kaart" (IOD)

De auteurs hebben ook een nieuwe versie gemaakt van een bestaande methode (IOD) die deze puzzelstukken samenvoegt tot één grote "Oorzaak-En-Gevolg-kaart" (een grafiek).

De verbetering: De oude methode kon dit niet goed doen als de ziekenhuizen verschillende variabelen hadden. De nieuwe methode kan de ontbrekende stukken "invullen" door slim te redeneren over wat er niet samenhangt.
Voorbeeld: Als Ziekenhuis A weet dat A en B samenhangen, en Ziekenhuis B weet dat B en C samenhangen, kan het systeem afleiden hoe A en C met elkaar verbonden zijn, zelfs als geen enkel ziekenhuis A en C samen heeft gemeten.

5. De "App" voor Iedereen

Het mooiste is dat de auteurs dit niet alleen als een theorie hebben achtergelaten. Ze hebben een webapplicatie gebouwd.

De analogie: Het is alsof ze een kant-en-klare "Google Maps" hebben gebouwd voor oorzaken en gevolgen. Ziekenhuizen kunnen zich aanmelden, hun data uploaden (zonder het te delen), en krijgen direct een gezamenlijk antwoord.

Samenvatting in één zin:

Deze paper laat zien hoe we samen kunnen werken om de waarheid over ziektes en oorzaken te vinden, zelfs als we onze data niet mogen delen en als we niet alles hebben gemeten, door slimme wiskunde te gebruiken in plaats van het delen van gevoelige dossiers.

Waarom is dit belangrijk?
Het betekent dat we in de toekomst sneller en veiliger nieuwe medicijnen kunnen ontwikkelen en ziektes beter kunnen begrijpen, zonder dat de privacy van patiënten in gevaar komt. Het is een win-win voor wetenschap en privacy.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding" in het Nederlands.

Probleemstelling

In veel wetenschappelijke en industriële domeinen (zoals gezondheidszorg en economie) is het begrijpen van causale relaties tussen variabelen cruciaal. Traditionele methoden voor causale ontdekking vereisen vaak een gecentraliseerd dataset, wat echter onmogelijk of onwenselijk is vanwege:

Privacyreguleringen: Wetgeving (zoals GDPR) verbiedt het delen van ruwe, gevoelige data tussen locaties.
Heterogeniteit: Verschillende locaties (clients) hebben vaak niet-identieke sets van variabelen (verticale partitionering) en verschillende data-types (continu, binair, ordinaal, categorisch).
Latente Confounding: Bestaande federatieve methoden gaan vaak uit van "causale sufficientie" (alle verstorende variabelen zijn waargenomen), wat in de praktijk zelden het geval is.
Statistische Kracht: Meta-analyse-methoden werken met samenvattingsstatistieken en missen vaak de statistische kracht van een volledig gepoolde analyse, wat leidt tot fouten bij het testen van conditionele onafhankelijkheid (CI), vooral bij kleine lokale steekproeven.

Het doel is om een robuust, privacybehoudend framework te ontwikkelen dat causale structuren kan leren over gedistribueerde, heterogene datasets met latente verstorende variabelen, zonder data te centraliseren.

Methodologie

De auteurs introduceren fedCI-IOD, een geïntegreerde pipeline bestaande uit twee hoofdcomponenten:

1. fedCI: Federated Conditional Independence Testing

Dit is het kernonderdeel voor het testen van conditionele onafhankelijkheid ( $X \perp Y | Z$ ) over meerdere clients.

Model: Het gebruikt Generalized Linear Models (GLM) als basis. GLM's zijn flexibel genoeg om gemengde data-types (continu, binair, ordinaal, multinomiaal) te hanteren en kunnen complexe relaties modelleren via linkfuncties.
Optimalisatie: De parameters van de GLM's worden geschat via Federated Iteratively Reweighted Least Squares (IRLS). In plaats van ruwe data te delen, delen clients alleen geaggregeerde statistieken (zoals de Fisher-informatiematrix en score-vectoren) met een centrale server.
Privacy:
- Er wordt gebruikgemaakt van paarsgewijze additieve masking om te voorkomen dat de server individuele bijdragen van clients kan achterhalen.
- Voor site-specifieke effecten (bijv. verschillen tussen ziekenhuizen) wordt een Coordinate Ascent (fedCI-CA) variant voorgesteld. Hierbij worden site-effecten lokaal geschat en alleen de bijdrage aan de globale parameters gedeeld, wat privacy garandeert zonder de nauwkeurigheid te verliezen.
Heterogeniteit: Het framework behandelt niet-identieke variabele sets door alleen clients die de benodigde variabelen hebben bij te laten dragen aan een specifieke test. Clients zonder de juiste variabelen sturen "null-contributies" (gemaskerd), zodat het totaal aantal deelnemers voor masking onbekend blijft voor de server.
Statistiek: Het gebruikt Likelihood-Ratio Tests (LRT) om CI te testen. Om asymmetrie in p-waarden bij gemengde data te voorkomen, worden bidirectionele tests gecombineerd volgens de methode van Tsagris et al.

2. fedCI-IOD: Federated Extension van IOD

De Integration of Overlapping Datasets (IOD) algoritme wordt aangepast om te werken met fedCI.

Originele IOD: Combineert lokale CI-testresultaten via Fisher's methode (meta-analyse) om een Partial Ancestral Graph (PAG) te construeren die de Markov-equivalentieklasse (MEC) van de causale structuur weergeeft, zelfs bij latente confounding.
Verbetering: In plaats van lokale p-waarden te combineren, gebruikt fedCI-IOD de fedCI test om direct een globale schatting te maken over alle data. Dit verhoogt de statistische kracht aanzienlijk.
Efficiëntie: De auteurs hebben de IOD-algoritme geoptimaliseerd door niet alleen ongeschilderde colliders, maar ook alle "triples with order" (colliders en non-colliders) uit lokale PAG's te gebruiken om de globale structuur te construeren. Dit reduceert het aantal kandidaat-PAG's dat gegenereerd moet worden, wat de rekenkracht aanzienlijk verlaagt.

Belangrijkste Bijdragen

fedCI Framework: Het eerste federatieve CI-testframework dat specifiek is ontworpen voor gedistribueerde datasets met niet-identieke variabele sets, gemengde data-types en site-specifieke effecten, ondersteund door een Python-implementatie.
Privacy-behoudende IOD: Een R-pakket-implementatie van IOD die werkt via meta-analyse van p-waarden of naadloos integreert met fedCI, zonder dat ruwe data gedeeld hoeft te worden.
fedCI-IOD Webapplicatie: Een volledig gecontaineriseerde, self-hostable webapplicatie die federatieve causale ontdekking toegankelijk maakt voor gebruikers, inclusief ondersteuning voor heterogene data en latente confounding.
Theoretische en Praktische Validatie: Het bewijst dat federatieve CI-tests (fedCI) statistisch even krachtig zijn als gecentraliseerde analyses, terwijl meta-analyse (Fisher's methode) vaak faalt bij heterogene data.

Resultaten

De auteurs hebben hun methode geëvalueerd via uitgebreide simulaties met synthetische data (5-knoop PAG's) die horizontaal en verticaal gepartitioneerd waren.

Statistische Kracht: fedCI presteerde bijna identiek aan de "pooled baseline" (gecentraliseerde analyse) in termen van nauwkeurigheid bij het bepalen van afhankelijkheden en onafhankelijkheden.
Vergelijking met Meta-analyse: De traditionele Fisher's methode (meta-analyse) vertoonde een duidelijke prestatiedaling naarmate het aantal partities toenam. Het was conservatiever (hoge Type II-fouten), wat leidde tot het ten onrechte accepteren van onafhankelijkheid en foutieve causale conclusies.
Causale Ontdekking (SHD): Bij het toepassen in de IOD-algoritme resulteerde fedCI-IOD in Partial Ancestral Graphs (PAG's) met een Structural Hamming Distance (SHD) die zeer dicht bij de grondwaarheid lag. De methode gebaseerd op Fisher's methode leverde aanzienlijk hogere SHD-waarden op (meer fouten in de structuur).
Efficiëntie: De geoptimaliseerde IOD-versie (met "triples with order") reduceerde het aantal te valideren kandidaat-PAG's met tot wel 1000 in sommige scenario's, zonder de correctheid te beïnvloeden.

Significantie

Dit werk vult een cruciale leemte in de literatuur over federatief leren en causale inferentie.

Doorbraak in Privacy: Het maakt het mogelijk om complexe causale modellen te leren over meerdere organisaties (bijv. ziekenhuizen) zonder dat gevoelige patiëntdata ooit de locatie verlaat.
Omgaan met Realiteit: Het is de eerste methode die realistische uitdagingen zoals gemengde data-types, ontbrekende variabelen per locatie en latente verstorende variabelen gelijktijdig aanpakt.
Toepasbaarheid: Door het open-source maken van de software (Python, R, en een WebApp), wordt de methode direct inzetbaar voor onderzoekers en praktici, wat reproducibiliteit en adoptie in de praktijk stimuleert.
Wetenschappelijke Impact: Het toont aan dat federatieve benaderingen niet per se ten koste gaan van de statistische kracht, mits de juiste methoden (zoals federatieve GLM's i.p.v. simpele meta-analyse) worden gebruikt.