Prediction decomposition for causal analysis

✨

Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Landwirt, der herausfinden möchte, ob ein neues Düngemittel (die „Behandlung") tatsächlich mehr Ernte bringt. Das Problem: Sie können nicht jeden einzelnen Maiskolben auf der ganzen Welt wiegen. Das wäre zu teuer und zu aufwendig.

Also machen Sie folgendes: Sie wiegen nur eine kleine Gruppe von Maispflanzen (die „Stichprobe") und trainieren einen Computer (eine KI), um basierend auf Fotos von den Feldern den Ertrag für alle Pflanzen vorherzusagen. Dann nutzen Sie diese Vorhersagen, um zu berechnen, ob das Düngemittel funktioniert hat.

Das klingt toll, aber hier liegt der Haken: Der Computer könnte sehr gut darin sein, den Ertrag vorherzusagen, aber völlig blind dafür sein, ob das Düngemittel wirklich einen Unterschied macht.

Dieses Papier von Ofir Reich erklärt, warum das passiert und wie man einen besseren „Kompass" findet, um den richtigen Computer-Modell zu wählen.

Das große Missverständnis: Der „Fotograf" vs. der „Detektiv"

Stellen Sie sich zwei Arten von KI-Modellen vor:

Der Fotograf (Das herkömmliche Modell):
Dieser Fotograf ist super darin, zu sagen: „Pflanze A ist groß und grün, also wird sie viel Ertrag bringen. Pflanze B ist klein und gelb, also wenig Ertrag."
Er lernt die Unterschiede zwischen den Pflanzen (die „zwischen-Einheit-Variation"). Er weiß, dass Pflanzen in fruchtbaren Böden einfach besser wachsen.
Das Problem: Wenn Sie nun das Düngemittel geben, ändert sich der Boden nicht. Der Fotograf sagt: „Na ja, Pflanze A war schon groß, also bleibt sie groß. Pflanze B war klein, also bleibt sie klein." Er sieht keinen Effekt des Düngemittels, auch wenn es funktioniert hat! Er hat nur die statischen Eigenschaften gelernt, nicht die Veränderung.
Der Detektiv (Das ideale Modell für Kausalität):
Dieser Detektiv interessiert sich nicht dafür, ob Pflanze A von Natur aus größer ist als Pflanze B. Er schaut sich an: „Wie hat sich Pflanze A im Laufe der Zeit verändert?"
Er lernt, dass Pflanzen nach einem Regen (oder Dünger) plötzlich wachsen. Er ist ein Meister darin, Veränderungen innerhalb einer Einheit zu erkennen.

Die Kernbotschaft des Papiers:
Wenn Sie einen Computer-Modell für eine wissenschaftliche Studie nutzen wollen, ist es egal, wie gut er den aktuellen Zustand vorhersagt (wie ein guter Fotograf). Es ist viel wichtiger, wie gut er Veränderungen über die Zeit vorhersagen kann (wie ein guter Detektiv).

Die neue Methode: Der „Zeit-Check"

Wie finden wir heraus, ob unser KI-Modell ein guter Detektiv ist, ohne das Ergebnis der ganzen Welt zu kennen?

Reich schlägt vor, einen einfachen Test durchzuführen, der zwei Zeitpunkte benötigt (z. B. vor und nach der Behandlung, oder zwei Jahre hintereinander).

Die Analogie des „Spiegelbilds":
Stellen Sie sich vor, Sie haben eine Gruppe von Menschen, die das Düngemittel nicht bekommen haben (die Kontrollgruppe).

Schauen Sie sich an, wie sich deren tatsächlicher Ertrag von Jahr 1 zu Jahr 2 verändert hat (vielleicht wegen des Wetters).
Schauen Sie sich an, wie sich die Vorhersage des Computers für dieselben Menschen von Jahr 1 zu Jahr 2 verändert hat.

Szenario A (Schlechter Fotograf): Der Computer sagt für Jahr 1: „Großer Ertrag" und für Jahr 2: „Großer Ertrag". Er ändert seine Vorhersage gar nicht, obwohl das Wetter sich geändert hat. Er ist stur. Er wird auch den Effekt des Düngemittels nicht sehen.
Szenario B (Guter Detektiv): Der Computer sagt für Jahr 1: „Großer Ertrag" und für Jahr 2: „Noch größer, weil es geregnet hat." Er passt seine Vorhersage an die Veränderung an.

Der neue Maßstab:
Statt zu fragen: „Wie genau ist die Vorhersage insgesamt?" (das ist wie zu fragen, ob das Foto scharf ist), fragen wir: „Wie gut spiegelt die Vorhersage die natürlichen Schwankungen wider?"

Wenn die Vorhersage des Computers die natürlichen Schwankungen (wie Regen oder Trockenheit) gut nachvollzieht, dann ist es sehr wahrscheinlich, dass sie auch den Effekt des Düngemittels (die Behandlung) gut nachvollziehen wird.

Warum ist das wichtig?

In der Vergangenheit haben Forscher oft Modelle gewählt, die die höchste „Genauigkeit" (R-Quadrat) hatten. Das Papier zeigt jedoch:

Ein Modell kann eine perfekte Genauigkeit haben, weil es einfach nur weiß, welche Felder generell fruchtbar sind.
Aber genau dieses Modell wird den Effekt der Behandlung komplett übersehen, weil es starr ist.

Der Autor entwickelt eine Formel (einen „Slope" oder Steigungswert), die man leicht berechnen kann, um zu prüfen, ob das Modell flexibel genug ist, um Veränderungen zu sehen.

Zusammenfassung für den Alltag

Stellen Sie sich vor, Sie wollen herausfinden, ob ein neues Lernprogramm Schüler besser macht.

Der alte Weg: Sie nehmen einen Computer, der sehr gut darin ist, zu sagen, welche Schüler schon jetzt gute Noten haben (vielleicht weil sie zu Hause viel lernen). Aber dieser Computer sagt vielleicht: „Die guten Schüler bleiben gut, die schlechten bleiben schlecht", egal ob sie das Programm nutzen oder nicht. Er findet keinen Effekt.
Der neue Weg (nach diesem Papier): Sie prüfen, ob der Computer auch dann gute Vorhersagen macht, wenn sich die Noten der Schüler natürlich von Monat zu Monat ändern (z. B. weil sie müde waren oder krank). Wenn der Computer diese kleinen Schwankungen gut nachvollziehen kann, dann wird er auch den Effekt des Lernprogramms gut erkennen.

Fazit:
Wenn Sie KI nutzen, um zu messen, ob etwas wirkt (eine Medizin, eine Politik, ein Dünger), wählen Sie nicht das Modell, das am besten den Status Quo beschreibt. Wählen Sie das Modell, das am besten Veränderungen über die Zeit versteht. Dafür brauchen Sie Daten von mindestens zwei Zeitpunkten. Das ist der Schlüssel, um nicht in die Irre geführt zu werden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Vorhersagezerlegung für kausale Analysen (Prediction decomposition for causal analysis)

Autor: Ofir Reich
Datum: 14. April 2026

1. Problemstellung

In der kausalen Analyse (z. B. in Randomized Controlled Trials, RCTs) gewinnt die Verwendung von Vorhersagen maschineller Lernmodelle (ML) als Ergebnisvariablen (Outcomes) zunehmend an Bedeutung. Dies geschieht oft, um Kosten zu senken und die Stichprobengröße zu erhöhen, indem teure Ground-Truth-Daten nur für eine Teilmenge erhoben und für den Rest des Samples durch ML-Modelle (basierend auf leicht verfügbaren Merkmalen wie Mobilfunkdaten oder Satellitenbildern) vorhergesagt werden.

Das zentrale Problem ist jedoch, dass hohe Vorhersagegenauigkeit (Accuracy) nicht garantiert, dass das Modell den wahren kausalen Behandlungseffekt korrekt erfasst.

ML-Modelle optimieren oft die Vorhersage des absoluten Niveaus einer Variable (z. B. Konsumniveau basierend auf dem Wohnort).
Kausale Inferenz interessiert sich jedoch für die Differenz zwischen dem Ergebnis mit und ohne Behandlung (kontrafaktische Variation).
Ein Modell kann hervorragende $R^2$ -Werte liefern, indem es stabile, zwischen den Einheiten variierende Merkmale (z. B. Demografie, Geografie) lernt, aber völlig blind gegenüber zeitlichen Veränderungen oder Behandlungseffekten sein. Dies führt zu verzerrten (oft unterschätzten) Behandlungseffekten oder einem vollständigen Ausfall der Detektion.

Bisher fehlte ein diagnostisches Werkzeug, um vor der Durchführung der kausalen Analyse zu bewerten, ob ein ML-Modell geeignet ist, den Behandlungseffekt zu recoveren.

2. Methodik und Theoretischer Rahmen

Der Autor schlägt eine Zerlegung der ML-Vorhersage in drei Komponenten vor, um die Eignung des Modells zu analysieren. Das wahre Ergebnis $Y_{i,t}$ wird modelliert als:
$Y_{i,t} = \alpha + \mu_i + \gamma \cdot Treat_{i,t} + \epsilon_{i,t}$
Dabei ist $\mu_i$ eine fixe Einheitseigenschaft (zwischen-Einheiten-Variation) und $\epsilon_{i,t}$ eine zeitliche Schwankung (innerhalb-Einheiten-Variation).

Die ML-Vorhersage $\hat{Y}_{i,t}$ wird entsprechend zerlegt:
$\hat{Y}_{i,t} = \alpha + \eta_\mu \mu_i + \eta_T \gamma \cdot Treat_{i,t} + \eta_\epsilon \epsilon_{i,t} + \nu_{i,t}$

Die Koeffizienten haben folgende Bedeutung:

$\eta_\mu$ (Between-Unit): Misst, wie gut das Modell stabile Unterschiede zwischen den Einheiten erfasst.
$\eta_\epsilon$ (Within-Unit-Across-Time): Misst, wie gut das Modell natürliche zeitliche Schwankungen innerhalb einer Einheit erfasst.
$\eta_T$ (Counterfactual-Treatment-Effect): Misst, wie gut das Modell den kausalen Behandlungseffekt erfasst. Dies ist der kritische Parameter für die kausale Analyse.

Das Kernproblem: $\eta_T$ kann ohne experimentelle Variation (d.h. ohne Ground-Truth-Daten für die gesamte Stichprobe) nicht direkt geschätzt werden.

Die Lösung: Der Autor argumentiert, dass $\eta_\epsilon$ ein strukturell besserer Proxy für $\eta_T$ ist als die Gesamtvorhersagegenauigkeit.

Begründung: Merkmale, die zwischen-Einheiten-Variation erklären (z. B. Standort), ändern sich nicht durch eine Behandlung. Merkmale, die innerhalb-Einheiten-Variation erklären (z. B. saisonale Schwankungen, kurzfristige Schocks), sind strukturell ähnlicher zu den Mechanismen, durch die eine Behandlung wirkt. Ein Modell, das gut in $\eta_\epsilon$ ist, ist daher wahrscheinlicher auch gut in $\eta_T$ .

Schätzmethode (für $\eta_\epsilon$ ):
Unter der Annahme von Paneldaten mit mindestens zwei Zeitperioden ( $t=1, 2$ ) für eine Teilmenge der Einheiten (ohne Behandlung):

Berechnung der Differenzen innerhalb der Einheiten: $\Delta Y_i = Y_{i,2} - Y_{i,1}$ .
Regression der Differenz der Vorhersagen auf die Differenz der tatsächlichen Werte (ohne Intercept):
$\Delta \hat{Y}_i = \beta \cdot \Delta Y_i + \text{error}_i$
Der geschätzte Koeffizient $\hat{\beta}$ ist eine konsistente Schätzung für $\eta_\epsilon$ .

3. Wichtige Ergebnisse (basierend auf Simulationen)

Der Autor validiert den Ansatz durch Simulationen mit synthetischen Daten:

Vorhersagegenauigkeit ist irreführend: Ein hohes $R^2$ der ML-Vorhersage korreliert kaum mit der Genauigkeit des geschätzten Behandlungseffekts. Modelle mit hohem $R^2$ können $\eta_T \approx 0$ haben, wenn sie primär $\eta_\mu$ (stabile Merkmale) lernen.
$\eta_\epsilon$ als Proxy: Die Steigung der "Diff-vs-Diff"-Regression ( $\hat{\eta}_\epsilon$ ) korreliert stark mit der Fähigkeit des Modells, den Behandlungseffekt zu erfassen, insbesondere wenn $\eta_T \approx \eta_\epsilon$ gilt.
Verzerrungskorrektur: Wenn die Annahme $\eta_T \approx \eta_\epsilon$ zutrifft, kann der verzerrte Behandlungseffekt korrigiert werden:
$\text{Korrektur} = \frac{\hat{\gamma}_{\text{ML}}}{\hat{\eta}_\epsilon}$
Dies liefert einen annähernd unverzerrten Schätzer.
Kompression ist kein Indikator: Die Kompression der Varianz der Vorhersagen (oft ein Problem bei ML-Modellen) korreliert nicht mit der Kompression des Behandlungseffekts, da die Varianzkompression meist durch $\eta_\mu$ getrieben wird, der Behandlungseffekt aber durch $\eta_T$ .

4. Praktische Leitlinien

Für Praktiker, die ML-Vorhersagen in kausalen Analysen nutzen wollen, empfiehlt das Paper folgende Schritte:

Datenerhebung: Sammeln Sie Ground-Truth-Daten für eine Teilmenge der Stichprobe über mindestens zwei Zeitperioden (vor und nach der Intervention).
Modelltraining: Trainieren Sie Modelle nur auf unbehandelten Einheiten (Control Group), um keine Behandlungseffekte in die Merkmale zu "lecken".
Diagnose: Berechnen Sie $\hat{\eta}_\epsilon$ mittels der Diff-vs-Diff-Regression auf der Teilmenge.
Modellauswahl: Wählen Sie das Modell mit dem höchsten $\hat{\eta}_\epsilon$ , nicht das mit dem höchsten $R^2$ . Ein hohes $R^2$ bei niedrigem $\hat{\eta}_\epsilon$ ist ein Warnsignal.
Korrektur (mit Vorsicht): Falls $\hat{\eta}_\epsilon$ niedrig ist, kann der Effekt skaliert werden, aber dies erfordert die starke Annahme $\eta_T \approx \eta_\epsilon$ .

5. Bedeutung und Beitrag

Paradigmenwechsel: Das Paper verschiebt den Fokus von der reinen Vorhersagegenauigkeit (Accuracy) hin zur Eignung für kausale Inferenz (Sensitivity to change).
Neues Diagnose-Tool: Es bietet erstmals eine Methode, um ML-Modelle für kausale Zwecke zu bewerten, ohne die teure Erhebung von Ground-Truth-Daten für die gesamte Population zu benötigen.
Theoretische Fundierung: Die Zerlegung in $\eta_\mu$ , $\eta_\epsilon$ und $\eta_T$ erklärt strukturell, warum viele ML-Ansätze in der Kausalität versagen (Überanpassung an stabile Merkmale).
Anwendbarkeit: Die Methode ist besonders relevant für Felder wie Entwicklungshilfe (Cash Transfers) oder Landwirtschaft (Ertragsprognosen), wo ML-Proxy-Daten (Handydaten, Satellitenbilder) genutzt werden.

Zusammenfassend zeigt das Paper, dass für kausale Analysen Modelle bevorzugt werden sollten, die dynamische, zeitliche Veränderungen innerhalb von Einheiten gut abbilden ( $\eta_\epsilon$ ), und nicht solche, die nur statische Unterschiede zwischen Einheiten perfekt vorhersagen.