Federated Causal Discovery Across Heterogeneous Datasets under Latent Confounding

Die Studie stellt fedCI und fedCI-IOD vor, eine neue Methode für die federierte kausale Entdeckung, die es ermöglicht, unter Berücksichtigung von Datenschutz, heterogenen Variablen und latenten Störfaktoren kausale Zusammenhänge über verteilte Datensätze hinweg zu identifizieren, ohne diese zentralisieren zu müssen.

Maximilian Hahn, Alina Zajak, Dominik Heider, Adèle Helena Ribeiro

Veröffentlicht 2026-03-06
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, die Ursache für eine bestimmte Krankheit zu verstehen. Dazu müssten Sie eigentlich die Krankenakten von Millionen Menschen aus der ganzen Welt zusammenführen. Aber das geht nicht: Datenschutzgesetze verbieten es, sensible Patientendaten einfach so zu kopieren und in eine zentrale Datenbank zu legen. Jeder Arzt oder jedes Krankenhaus (die "Standorte") hält seine Daten sicher in seinem eigenen Tresor.

Das ist das große Dilemma: Um Muster zu erkennen, braucht man viele Daten, aber die Daten dürfen nicht zusammengeführt werden.

Hier kommt die neue Forschung von Maximilian Hahn und seinem Team ins Spiel. Sie haben eine Art digitalen "Geheim-Vertrag" entwickelt, der es erlaubt, gemeinsam zu forschen, ohne dass jemand seine Daten preisgibt.

Hier ist die Erklärung ihrer Arbeit, übersetzt in einfache Sprache und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Flickenteppich" aus Daten

Stellen Sie sich vor, Sie haben ein riesiges Puzzle. Aber jeder Teilnehmer hat nur ein paar Teile davon, und die Teile sehen alle etwas anders aus:

  • Verschiedene Teile: Krankenhaus A hat Daten über Blutdruck und Herzfrequenz. Krankenhaus B hat Daten über Blutdruck und Cholesterin, aber keine Herzfrequenz.
  • Verschiedene Formate: Bei manchen sind die Werte Zahlen, bei anderen sind es Kategorien (wie "niedrig", "mittel", "hoch").
  • Versteckte Störfaktoren: Es gibt Dinge, die wir nicht messen können (z. B. genetische Veranlagung oder Lebensstil), die aber alles beeinflussen. Das nennt man "latente Verwirrung".

Frühere Methoden konnten mit diesem Flickenteppich kaum etwas anfangen. Sie mussten entweder alle Daten in einen Topf werfen (verboten!) oder nur grobe Zusammenfassungen vergleichen, was oft zu falschen Schlüssen führte.

2. Die Lösung: fedCI – Der "Geheime Kalkulator"

Die Forscher haben ein neues Werkzeug namens fedCI erfunden.

Die Analogie:
Stellen Sie sich vor, alle Krankenhäuser sitzen an einem langen Tisch. Sie wollen gemeinsam eine komplizierte mathematische Gleichung lösen, aber niemand darf sein Heft zeigen.

  • Jeder rechnet einen kleinen Teil der Aufgabe auf seinem eigenen Heft aus.
  • Statt das Ergebnis (die Zahl) zu zeigen, schreiben sie einen verschlüsselten Zettel mit einer "Rauschzahl" darauf, die nur dazu dient, zu verbergen, wer was gerechnet hat.
  • Sie geben diesen Zettel an den Tischmeister (den Server).
  • Der Tischmeister addiert alle Zettel zusammen. Durch die Mathematik hebt sich das "Rauschen" genau auf, und am Ende steht das korrekte Gesamtergebnis da.
  • Aber: Niemand weiß, was der Nachbar genau auf seinem Heft stand. Die Privatsphäre ist gewahrt.

Das ist fedCI: Ein Verfahren, das prüft, ob zwei Dinge wirklich unabhängig voneinander sind oder ob sie zusammenhängen, indem es diese "verschlüsselten Rechnungen" über viele Standorte hinweg verteilt.

3. Der große Durchbruch: fedCI-IOD

Das eigentliche Ziel ist aber nicht nur zu prüfen, ob A und B zusammenhängen, sondern das ganze Ursache-Wirkungs-Netzwerk (den "Baum" der Kausalität) zu zeichnen. Dafür nutzen sie einen Algorithmus namens IOD.

  • Das alte Problem: Das alte IOD-Verfahren war wie ein Detektiv, der nur mit den Puzzleteilen arbeiten konnte, die er direkt vor sich hatte. Wenn ihm Teile fehlten (weil ein Krankenhaus sie nicht hatte), konnte er das Bild nicht vervollständigen.
  • Die neue Methode (fedCI-IOD): Der neue Detektiv ist schlauer. Er nutzt das "Geheim-Verfahren" (fedCI), um Informationen von allen Standorten zu sammeln, auch wenn diese unterschiedliche Puzzleteile haben.

Ein anschauliches Beispiel aus dem Papier:
Stellen Sie sich vor, Sie wollen wissen, ob Variable C mit E zusammenhängt.

  • Krankenhaus 1 hat C und E, aber nicht A.
  • Krankenhaus 2 hat A und E, aber nicht C.
  • Krankenhaus 3 hat A und C, aber nicht E.

Kein einzelnes Krankenhaus kann die Frage allein beantworten. Aber mit fedCI-IOD können sie alle ihre kleinen Hinweise kombinieren. Das System erkennt: "Aha! Wenn wir A, C und E zusammen betrachten, dann hängen C und E doch zusammen!" Ohne diese Kombination wäre die Antwort falsch gewesen.

4. Warum ist das so wichtig?

  • Privatsphäre: Die Daten verlassen nie den Tresor des Krankenhauses. Nur die mathematischen Zwischenergebnisse (die "Zettel") werden ausgetauscht.
  • Genauigkeit: Weil sie die Daten aller Standorte virtuell zusammenlegen, haben sie so viele "Augen" auf das Problem gerichtet, dass sie auch schwache Zusammenhänge finden, die ein einzelnes Krankenhaus übersehen würde.
  • Flexibilität: Es funktioniert egal, ob die Daten Zahlen, Kategorien oder gemischte Typen sind. Es ist wie ein universeller Schlüssel für verschiedene Schloss-Typen.

5. Das Ergebnis: Ein fertiges Werkzeug

Die Forscher haben nicht nur die Theorie entwickelt, sondern auch eine Web-App gebaut.
Stellen Sie sich das wie eine sichere Videokonferenz vor, bei der man nicht nur spricht, sondern gemeinsam an einem digitalen Whiteboard arbeitet, ohne dass jemand das Whiteboard des anderen sehen kann. Jeder kann seine Daten hochladen, und am Ende erhält man ein gemeinsames Bild der Ursachen und Wirkungen.

Zusammenfassend:
Diese Arbeit ist wie der Bau einer Brücke über einen Abgrund. Auf der einen Seite stehen die strengen Datenschutzgesetze, auf der anderen Seite der dringende Bedarf an großen Datenmengen für medizinische und wissenschaftliche Durchbrüche. fedCI-IOD ist die Brücke, die es erlaubt, beide Seiten zu verbinden, ohne dass jemand in den Abgrund fällt. Es ist der erste Schritt, um in einer Welt voller getrennter Daten endlich gemeinsam die wahren Ursachen von Dingen zu verstehen.