Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Wettervorhersage-Experte, der für eine riesige Stadt Prognosen trifft. Normalerweise sagst du einfach: „Es gibt eine 90%ige Chance, dass es morgen regnet." Das ist deine „konforme Vorhersage". Sie ist sicher, aber oft sehr vage, weil du alle Daten der letzten Jahre zusammenwirfst – egal, ob es im Winter oder im Sommer war.

Aber was, wenn du wüsstest, dass es im Sommer fast immer regnet, wenn ein bestimmter Wind weht, aber im Winter nicht? Wenn du die Daten trennst und nur die Sommerdaten nutzt, um deine Vorhersage zu machen, könntest du viel genauere und engere Vorhersagen treffen (z. B. „Es wird zwischen 14 und 16 Uhr regnen" statt nur „Es wird regnen").

Das ist im Grunde das, was diese Wissenschaftler mit Selektiver Konformer Inferenz erreichen wollen. Sie versuchen, Vorhersagen zu verfeinern, indem sie nur die „richtigen" Vergleiche (Daten) nutzen.

Das große Problem: Der unsichtbare Störfaktor

In der echten Welt (besonders in der Genetik, wo Gene wie Schalter funktionieren) ist es schwierig zu wissen, welche Daten „passend" sind.

Stell dir vor, du untersuchst, wie sich ein bestimmtes Gen (Ziel) verhält, wenn du andere Gene manipulierst (Interventionen).

Wenn du Gen A manipulierst, ändert sich Gen B vielleicht.
Wenn du Gen C manipulierst, passiert mit Gen B gar nichts.

Um eine gute Vorhersage für Gen B zu machen, solltest du nur die Daten von Gen C nutzen (weil sie sich ähnlich verhalten). Wenn du aber fälschlicherweise Daten von Gen A dazu mischst, wird deine Vorhersage kaputtgehen.

Das Problem: Niemand kennt die genaue Landkarte (das kausale Diagramm), wer wen beeinflusst. Man muss diese Landkarte erst aus den Daten lernen. Und wenn man dabei einen Fehler macht und Gen A fälschlicherweise in die „sichere" Gruppe für Gen B packt, wird die Vorhersage ungenau.

Die Lösung: Ein Sicherheitsnetz für Fehler

Die Autoren dieses Papiers haben drei geniale Ideen entwickelt, um dieses Problem zu lösen:

1. Der „Verschmutzungs-Alarm" (Theorem 1)

Stell dir vor, du hast einen Eimer mit sauberem Wasser (deine perfekten Daten), aber du hast Angst, dass jemand ein paar Tropfen Schmutzwasser (falsche Daten) hineingegossen hat.
Die Autoren haben eine mathematische Formel entwickelt, die genau berechnet: „Wenn bis zu X% des Wassers schmutzig ist, wie sehr verschlechtert sich dann meine Vorhersage?"

Das Tolle daran: Sie brauchen nicht zu wissen, was genau im Schmutzwasser ist. Sie wissen nur, wie viel davon da ist. Wenn sie wissen, dass maximal 30% der Daten falsch sein könnten, können sie ihre Vorhersage so anpassen, dass sie trotzdem zu 95% sicher ist – auch wenn die Vorhersage dann etwas breiter (konservativer) ausfällt.

2. Nur das Nötigste lernen (Task-Driven Learning)

Früher haben Wissenschaftler versucht, die gesamte Landkarte der Gen-Beziehungen zu zeichnen. Das ist wie der Versuch, die gesamte Weltkarte im Kopf zu behalten – unmöglich und voller Fehler.
Diese Forscher sagen: „Wir brauchen nicht die ganze Weltkarte. Wir brauchen nur zu wissen: 'Ist Gen X ein direkter Nachfahre von Gen Y?'"
Das ist wie wenn du nur wissen musst, ob dein Nachbar ein Freund ist, statt die komplette Verwandtschaftsliste der ganzen Stadt zu kennen. Das ist viel einfacher zu lernen und macht weniger Fehler.

3. Der Detektiv-Trick (Algorithmen)

Wie finden sie heraus, welche Gene zusammengehören, ohne die ganze Landkarte zu kennen?
Sie nutzen einen cleveren Trick, den man sich wie ein Spurensuch-Spiel vorstellen kann:

Wenn Gen A manipuliert wird, ändern sich Gene X und Y.
Wenn Gen B manipuliert wird, ändern sich Gene Y und Z.
Wenn Gen C manipuliert wird, ändern sich Gene X, Y und Z.

Der Algorithmus schaut sich an: Welche Gene tauchen immer wieder gemeinsam auf? Wenn Gen Y bei fast allen Manipulationen betroffen ist, ist es wahrscheinlich ein „Nachfahre" (ein Kind) von vielen anderen. Wenn ein Gen nur bei einer einzigen Manipulation betroffen ist, ist es vielleicht ein „Enkel" oder ein entfernter Verwandter. Durch das Überkreuzen dieser Listen (Schnittmengen) können sie die falschen Verdächtigen aussortieren, ohne die ganze Geschichte zu kennen.

Das Ergebnis in der Praxis

Die Forscher haben das an künstlichen Daten und an echten CRISPR-Gen-Daten (einer Art molekularer Schere) getestet.

Ohne ihre Methode: Wenn man zufällig falsche Daten in die Mischung wirft, bricht die Zuverlässigkeit der Vorhersage ein (von 90% auf 86% Sicherheit).
Mit ihrer Methode: Selbst wenn 30% der Daten falsch waren, blieb die Vorhersage sicher (über 95%), weil sie den „Verschmutzungs-Alarm" nutzten und die Vorhersage entsprechend vorsichtig anpassten.

Zusammenfassung in einem Satz

Statt zu versuchen, das perfekte Universum zu verstehen, bauen diese Forscher ein robustes Sicherheitsnetz, das auch dann noch funktioniert, wenn man bei der Suche nach den richtigen Vergleichsdaten ein paar Fehler macht – und das macht Vorhersagen in der Genetik und Medizin viel verlässlicher.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das Problem der Unsicherheitsquantifizierung in experimentellen Settings mit Interventionen (z. B. genomische Perturbationsexperimente wie CRISPRi), bei denen herkömmliche Methoden der konformen Vorhersage (Conformal Prediction, CP) versagen oder ineffizient sind.

Herausforderung: Standard-CP garantiert eine marginale Abdeckung (Coverage) unter der Annahme von Austauschbarkeit (Exchangeability) der Daten. In interventionalen Szenarien ist diese Austauschbarkeit jedoch oft nur innerhalb spezifischer Teilmengen von Interventionen gegeben. Eine Intervention $a$ beeinflusst ein Zielgen $i$ nur, wenn $i$ ein kausaler Nachkomme (Descendant) von $a$ im regulatorischen Netzwerk ist.
Selektive Kalibrierung: Um präzisere (engere) Vorhersageintervalle zu erhalten, sollte die Kalibrierung auf Interventionen beschränkt werden, die das Zielgen nicht beeinflussen (d.h. nicht-Nachkommen). Dies erfordert jedoch die Kenntnis der kausalen Struktur (wer ist Nachkomme von wem?).
Das Dilemma: Die vollständige kausale Graphenstruktur ist in hohen Dimensionen schwer zu lernen und fehleranfällig. Wenn man falsche Interventionen als „unbeeinflusst" klassifiziert und in die Kalibrierung einbezieht (Kontamination), bricht die theoretische Abdeckungsgarantie zusammen. Bisher fehlte ein Rahmenwerk, das diesen Fehler quantifiziert und korrigiert, ohne den gesamten Graphen perfekt rekonstruieren zu müssen.

2. Methodik

Die Autoren entwickeln einen Rahmen, der partielle kausale Struktur lernt, um eine robuste selektive konforme Inferenz zu ermöglichen.

A. Theoretische Grundlage: $\delta$ -Robustheit

Die Kernidee ist, den Fehler der Struktur-Lern-Algorithmen nicht als binäres „Gelingen/Misserfolgen" zu betrachten, sondern als Kontaminationsanteil $\delta$ .

Definition: $\delta$ ist der Anteil der in die Kalibrierung aufgenommenen Interventionen, die das Zielgen tatsächlich beeinflussen (falsch-positive Klassifikation als „unbeeinflusst").
Satz 1 (Haupttheorem): Die Autoren beweisen eine endliche Stichproben-Untergrenze für die Abdeckung. Wenn ein Anteil $\delta$ der Kalibrierungsdaten kontaminiert ist, sinkt die garantierte Abdeckung von $1-\alpha$ auf:
$P(Y \in C) \ge 1 - \alpha - g(\delta, n)$
wobei $g(\delta, n) = \frac{\delta n}{(1-\delta)n + 1}$ eine explizite Funktion aus Kontaminationsanteil und Kalibrierungsgrösse $n$ ist.
Korrektur: Um die ursprüngliche Abdeckung $1-\alpha$ wiederherzustellen, wird ein konservativerer Konfidenzniveau $\alpha' = \alpha - g(\hat{\delta}, n)$ verwendet.

B. Aufgabengetriebenes partielles kausales Lernen

Statt den gesamten kausalen Graphen $G$ zu lernen, formulieren die Autoren das Problem als binäre Klassifikation für spezifische Intervention-Ziel-Paare $(a, i)$ :

Ziel: Schätzung von $Z_{a,i} = \mathbb{1}\{i \in \text{desc}(a)\}$ .
Fokus: Die Minimierung der False-Positive-Rate (FPR) ist kritisch, da falsch-positive Klassifikationen (einflussreiche Interventionen als unbeeinflusst markieren) direkt $\delta$ erhöhen und die Abdeckung gefährden. Falsch-negative Klassifikationen verringern nur die Kalibrierungsgröße, beeinträchtigen aber nicht die Gültigkeit.

C. Algorithmen

Zwei komplementäre Algorithmen werden vorgeschlagen:

Descendant Discovery via Perturbation Intersection Patterns:
- Nutzt Mengen von differentiell betroffenen Variablen (z.B. differentially expressed genes, DEGs) für jede Intervention.
- Logik: Wenn $b$ eine upstream-Intervention von $a$ ist, dann muss jede Nachkomme von $a$ auch ein Nachkomme von $b$ sein.
- Schätzer: Der geschätzte Nachkommen-Satz von $a$ ist der Schnitt der eigenen betroffenen Menge mit den betroffenen Mengen aller identifizierten upstream-Interventionen. Dies eliminiert falsch-positive Kandidaten effektiv.
Local ICP (Invariant Causal Prediction):
- Eine lokale Anpassung von ICP, um eine Distanzschätzung zur Intervention zu erhalten, ohne den gesamten Graphen zu rekonstruieren. Dies ermöglicht gewichtete Kalibrierung.

3. Schlüsselbeiträge

$\delta$ -robuster Abdeckungssatz: Ein expliziter, endlicher Stichproben-Beweis, der quantifiziert, wie sich Klassifikationsfehler in der Kalibrierung auf die Abdeckung auswirken. Dies liefert eine theoretische Basis für die Korrektur von selektiver CP unter Unsicherheit.
Task-Driven Formulierung: Eine Verschiebung vom Problem des vollständigen Graphen-Lernens hin zur Schätzung binärer Nachkommen-Indikatoren, was die Komplexität drastisch reduziert und den Fokus auf die für die Inferenz relevanten Fehler (FPR) legt.
Neue Algorithmen: Entwicklung von Algorithmen zur Entdeckung von Nachkommen durch Schnittmengenbildung von Perturbationsmustern und zur Distanzschätzung via lokaler ICP, die unter bestimmten Bedingungen (Recovery Conditions) die Kontamination kontrollieren.
Empirische Validierung: Umfassende Experimente auf synthetischen und realen Daten, die die theoretischen Grenzen bestätigen und die Überlegenheit des korrigierten Verfahrens zeigen.

4. Ergebnisse

Synthetische Daten (Lineare SEMs)

Setup: 200 Knoten, 150 Interventionen.
Ergebnisse:
- Die Abdeckung des unkorrigierten selektiven CP verschlechtert sich monoton mit steigender Kontamination $\delta$ (von 0,905 bei $\delta=0$ auf 0,867 bei $\delta=0,3$ ), was die Vorhersage von Satz 1 bestätigt.
- Der korrigierte Algorithmus (mit angepasstem $\alpha'$ ) hält die Abdeckung bei allen Kontaminationsniveaus $\ge 0,95$ (über dem nominalen Niveau von 0,9), auf Kosten etwas breiterer Intervalle (ca. 1,2–1,8-fach).
- Der geschätzte Kontaminationsanteil durch den Intersection-Algorithmus war in sauberen Settings sehr gering ( $\hat{\delta} \approx 0,018$ ).

Reale Daten (Replogle K562 CRISPRi Screen)

Setup: Genomweite CRISPRi-Perturbationen in K562-Zellen (~5.000 Gene).
Ergebnisse:
- Der korrigierte Ansatz war der einzige, der die nominale Abdeckung von 0,9 überschritt (0,906).
- Herausforderung: Aufgrund der strengen Korrektur und der begrenzten Kalibrierungsgröße ( $n \approx 40$ ) war das Verfahren nur in 59,8 % der Fälle anwendbar (finite Quantile). In den restlichen Fällen wurden unendliche Intervalle produziert.
- Ein „Proxy-Oracle" (basierend auf LFC-Quantilen) erreichte nur 0,864 Abdeckung, was auf reale Verletzungen der Austauschbarkeitsannahme (z.B. indirekte Effekte, Batch-Effekte) hinweist.

5. Bedeutung und Fazit

Das Paper liefert einen entscheidenden Fortschritt für die Anwendung von konformer Inferenz in der Biologie und anderen interventionalen Wissenschaften:

Robustheit gegen Unsicherheit: Es zeigt, dass man keine perfekte kausale Struktur benötigt, um valide Unsicherheitsintervalle zu erhalten. Selbst bei fehlerhafter Struktur-Lernung kann die Abdeckung durch eine mathematisch fundierte Korrektur gesichert werden.
Praktische Anwendbarkeit: Die vorgeschlagenen Algorithmen (insbesondere die Schnittmengen-Methode) sind skalierbar und nutzen die inhärente Struktur von Perturbationsexperimenten, um falsch-positive Klassifikationen zu unterdrücken.
Trade-off: Die Arbeit macht den Trade-off zwischen Intervallbreite und Abdeckungsgarantie transparent. Um die Garantie auch bei unsicherer Struktur zu wahren, müssen die Intervalle etwas breiter sein, was jedoch akzeptabler ist als eine falsche Sicherheit (Under-coverage).

Zusammenfassend bietet das Paper einen theoretisch fundierten und empirisch validierten Weg, um die Vorteile der selektiven konformen Inferenz (schmalere Intervalle) auch in realen Szenarien mit unbekannter kausaler Struktur und begrenzten Daten zu nutzen.