Covariate-Balanced Weighted Stacked Difference-in-Differences

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der falsche Vergleich

Stellen Sie sich vor, Sie wollen herausfinden, ob ein neues Super-Diät-Programm wirklich funktioniert. Sie haben zwei Gruppen von Menschen:

Die Diäter: Die das Programm begonnen haben.
Die Nicht-Diäter: Die es nicht gemacht haben.

Das klassische Problem bei solchen Studien ist: Die Gruppen sind nicht gleich. Vielleicht haben die Diäter vorher schon mehr Sport gemacht oder essen generell gesünder. Wenn die Diäter nach einem Jahr abnehmen, wissen wir nicht, ob es am Programm lag oder daran, dass sie ohnehin schon fit waren.

In der Wirtschaftswissenschaft nennt man das "staggered adoption" (gestaffelte Einführung). Das bedeutet, verschiedene Städte, Firmen oder Länder beginnen zu unterschiedlichen Zeitpunkten mit einer neuen Politik (z. B. einem neuen Gesetz).

Die alte Lösung: Der "Stapel" (Stacked DID)

Bisher haben Forscher versucht, dieses Problem zu lösen, indem sie alle Daten in einen riesigen "Stapel" (Stack) geworfen haben. Sie haben versucht, alle Gruppen zusammenzufassen.

Das Problem: Wenn man einfach alles zusammenwirft, vergleicht man oft Äpfel mit Birnen. Die "Nicht-Diäter" in Gruppe A sind vielleicht ganz anders als die in Gruppe B. Das Ergebnis ist verzerrt.

Eine neuere Methode (von Wing et al.) hat gesagt: "Okay, wir müssen die Gruppen beim Zusammenfassen gewichten, damit sie fairer sind." Das half schon, aber es löste nicht das Problem, dass die Gruppen innerhalb ihrer eigenen kleinen Experimente immer noch zu unterschiedlich waren.

Die neue Lösung: CBWSDID (Die "Zwei-Schritte-Methode")

Vadim Ustyuzhanin schlägt eine Methode vor, die er CBWSDID nennt. Man kann sich das wie einen zweistufigen Kochprozess vorstellen, um den perfekten Salat zu machen.

Schritt 1: Die perfekte Auswahl (Das "Matching" oder "Gewichten")

Stellen Sie sich vor, Sie sind ein Koch. Sie haben eine Gruppe von Leuten, die das Diät-Programm gemacht haben (die "Behandelten"). Sie wollen herausfinden, wie es ihnen ohne das Programm gegangen wäre.

Der Fehler: Sie nehmen einfach zufällige Leute aus der Küche als Vergleich.
Die neue Methode (CBWSDID): Bevor Sie überhaupt anfangen zu kochen, suchen Sie sich für jeden Diäter einen perfekten Zwilling aus der Gruppe der Nicht-Diäter.
- Wenn der Diäter 30 Jahre alt ist, raucht und in Berlin wohnt, suchen Sie einen Nicht-Diäter, der genau 30 ist, raucht und in Berlin wohnt.
- Oder Sie geben den Nicht-Diätern, die den Diätern am ähnlichsten sind, mehr "Stimmen" (Gewichtung), damit sie in der Analyse stärker zählen.
- Das Ziel: Innerhalb jedes kleinen Experiments sind die Vergleichsgruppen jetzt fast identisch. Das nennt man "Covariate-Balanced" (ausgeglichene Merkmale).

Schritt 2: Das richtige Zusammenfügen (Die "Korrektur")

Jetzt haben Sie viele kleine, perfekte Experimente (z. B. ein Experiment für Berlin, eines für München, eines für Hamburg). Aber wie fassen Sie diese Ergebnisse zu einem Gesamtergebnis zusammen?

Der Fehler: Wenn Sie einfach alle Ergebnisse mitteln, zählen die großen Städte (viele Teilnehmer) zu stark und die kleinen zu wenig.
Die neue Methode: Hier kommt der zweite Teil ins Spiel. Sie nehmen die Ergebnisse aus Schritt 1 und fügen sie so zusammen, dass die Gewichtung genau dem entspricht, wie viele Menschen in jeder Gruppe tatsächlich waren.
Die Analogie: Stellen Sie sich vor, Sie haben 100 kleine Töpfe mit Suppe. Jeder Topf ist perfekt gewürzt (Schritt 1). Aber Sie wollen eine große Schüssel Suppe für die ganze Familie. Sie müssen sicherstellen, dass Sie aus jedem Topf genau die Menge nehmen, die dem Anteil der Familie entspricht, die diesen Topf "repräsentiert".

CBWSDID verbindet diese zwei Schritte nahtlos. Es sorgt dafür, dass die Vergleichsgruppen innerhalb der Experimente fair sind (Schritt 1) und dass die Gesamtrechnung über alle Experimente hinweg korrekt ist (Schritt 2).

Was ist neu daran? (Die "Wiederholungen")

Ein besonders cooler Aspekt dieser Arbeit ist, dass sie nicht nur für einmalige Dinge gilt.

Früher: Man dachte, eine Stadt nimmt ein Gesetz an und bleibt dabei (wie ein Lichtschalter, der nur "AN" geht).
Jetzt: Dinge passieren oft mehrmals. Eine Stadt macht ein Gesetz, hebt es auf, macht es wieder, hebt es wieder auf.
Die Lösung: CBWSDID kann damit umgehen. Es betrachtet nicht nur "Wer hat das Gesetz?", sondern "Welche Episode des Gesetzes?". Es vergleicht also genau die Zeit, in der das Licht an war, mit einer Zeit, in der es aus war, aber die Geschichte der Stadt (die letzten paar Jahre) war ähnlich.

Warum ist das wichtig? (Die Ergebnisse)

Der Autor hat das an echten Daten getestet:

Simulation: In einem Computer-Test, wo er genau wusste, was die Wahrheit war, zeigten die alten Methoden riesige Fehler. Die neue Methode (CBWSDID) traf die Wahrheit fast perfekt.
Fair Housing Act (USA): Hier ging es darum, ob Gesetze gegen Diskriminierung die Stadtviertel "weißer" oder "bunter" gemacht haben. Die alten Methoden sagten: "Wow, die Gesetze haben die Stadt sofort verändert!" Aber die neue Methode zeigte: "Moment mal, die Städte waren vorher schon im Wandel. Wenn wir die Vergleichsgruppen richtig anpassen, war der Effekt viel kleiner."
Demokratie und Wirtschaft: Hier wurde geprüft, ob Demokratie den Wohlstand steigert. Die neue Methode bestätigte, dass der Effekt eher schwach ist, aber sie tat dies mit einer viel saubereren Methode als zuvor.

Fazit in einem Satz

CBWSDID ist wie ein hochmodernes Mikroskop und eine Waage in einem: Es sorgt dafür, dass Sie beim Vergleich von Gruppen (z. B. vor und nach einem Gesetz) wirklich nur die Unterschiede sehen, die durch das Gesetz entstanden sind, und nicht durch andere Faktoren, die die Gruppen vorher schon unterschieden haben. Es verbindet die Stärken von "perfekter Auswahl" (Matching) mit der "klaren Gesamtübersicht" (Gewichtung).

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert zwei zentrale Schwachstellen bei der Anwendung von Stacked Difference-in-Differences (DID) in Settings mit gestaffelter Behandlung (staggered adoption) oder wiederholten Behandlungen:

Aggregationsproblem über Sub-Experimente: Bei der herkömmlichen gestapelten DID werden behandelte und unbehandelte Einheiten über verschiedene Kohorten (Sub-Experimente) hinweg gepoolt. Wie Wing et al. (2024) gezeigt haben, führt eine einfache Pooling-Strategie oft zu verzerrten Schätzwerten, da die Anteile der Kohorten auf der Behandlungsseite und der Kontrollseite unterschiedlich gewichtet werden. Dies verletzt die Annahme paralleler Trends auf aggregierter Ebene, selbst wenn sie innerhalb jedes Sub-Experiments gilt. Wing et al. lösen dies durch korrigierende Gewichte („corrective stacked weights"), die die unbehandelten Trends so gewichten, dass sie den Kohortenanteilen der behandelten Einheiten entsprechen.
Vergleichbarkeitsproblem innerhalb von Sub-Experimenten: Selbst innerhalb eines einzelnen Sub-Experiments (z. B. einer spezifischen Kohorte) können sich behandelte Einheiten und „saubere" Kontrollen (noch nicht behandelte oder nie behandelte Einheiten) systematisch in beobachteten Kovariaten oder verzögerten Ergebnissen unterscheiden. Die Annahme unbedingter paralleler Trends ist in solchen Fällen oft nicht haltbar. Herkömmliche Stacked-DID-Methoden ignorieren diese inneren Design-Probleme oft oder behandeln sie nicht systematisch.

Das Ziel des Papers ist es, eine Methode zu entwickeln, die beide Probleme gleichzeitig löst: Sie verbessert die Vergleichbarkeit innerhalb der Sub-Experimente durch Matching oder Gewichtung und stellt gleichzeitig sicher, dass die Aggregation über die Sub-Experimente hinweg einen klar definierten kausalen Parameter (den gewichteten aggregierten ATT) schätzt.

2. Methodik: CBWSDID

Der Autor schlägt Covariate-Balanced Weighted Stacked Difference-in-Differences (CBWSDID) vor. Dies ist ein design-basiertes Verfahren, das zwei Stufen kombiniert, die durch nicht-negative Gewichte in einer einzigen Regression vereint werden.

A. Grundlegende Struktur (Absorbierende Behandlung)

Das Verfahren unterteilt sich in zwei logische Schritte:

Stufe 1: Design-Gewichtung innerhalb des Sub-Experiments (Covariate Balancing)
- Für jede Kohorte $a$ (Sub-Experiment) werden behandelte Einheiten ( $\mathcal{D}_a$ ) und saubere Kontrollen ( $\mathcal{C}_a$ ) definiert.
- Um die Vergleichbarkeit zu verbessern, werden für die Kontrollen nicht-negative Design-Gewichte $b_{sa}$ konstruiert. Diese Gewichte können durch Matching (z. B. nearest neighbor) oder Gewichtungsmethoden (z. B. Entropy Balancing, IPW, CBPS) erzeugt werden.
- Ziel ist es, die unbehandelten Trends der Kontrollen so zu gewichten, dass sie den unbehandelten Trends der behandelten Kohorte unter der Annahme bedingter paralleler Trends entsprechen.
- Die behandelten Einheiten erhalten dabei das Gewicht 1.
Stufe 2: Korrektive Aggregation über Sub-Experimente
- Um das Aggregationsproblem von Wing et al. (2024) zu lösen, werden die Design-Gewichte mit einem korrigierenden Faktor kombiniert.
- Die endgültigen Stichprobengewichte $W_{sa}$ $W_{s a}$ für eine Einheit $s$ $s$ in Sub-Experiment $a$ $a$ sind:
  - Für behandelte Einheiten: $1$
  - Für Kontrollen: $b_{sa} \times \frac{N^D_a / N^D_{\Omega}}{\tilde{N}^C_a / \tilde{N}^C_{\Omega}}$
  - Dabei ist $\tilde{N}^C_a$ die effektive Masse der gewichteten Kontrollen im Sub-Experiment.
- Dieser Faktor stellt sicher, dass die gewichteten unbehandelten Trends über alle Kohorten hinweg genau in demselben Verhältnis aggregiert werden wie die behandelten Kohorten.

B. Identifikationsannahmen

Die Identifikation basiert auf vier Hauptannahmen:

Keine Antizipation: Es gibt keine Behandlungseffekte vor der tatsächlichen Behandlung.
Gewichtete parallele Trends innerhalb des Sub-Experiments: Unter den Design-Gewichten $b_{sa}$ verlaufen die unbehandelten Trends von Kontrollen und Behandelten parallel.
Overlap und Nicht-Degeneration: Es gibt genügend Kontrollen, um die behandelten Gruppen zu gewichten.
Prä-Behandlungs-Design: Die Gewichte basieren nur auf Informationen vor der Behandlung.

C. Erweiterung auf wiederholte Behandlungen (Recurring Episodes)

Das Paper erweitert die Methode auf Settings, in denen Einheiten zwischen behandeltem ($1$) und unbehandeltem ($0$) Zustand wechseln können (z. B. Demokratie $\leftrightarrow$ Autokratie).

Einheit der Analyse: Statt Kohorten werden Behandlungs-Episoden (Switch-on $0 \to 1$ oder Switch-off $1 \to 0$ ) betrachtet.
Finite-Memory-Annahme: Die potenziellen Ergebnisse hängen nur von der Behandlungshistorie der letzten $L$ Perioden ab.
Episode-Weighted Estimand: Der Zielparameter ist der durchschnittliche Effekt einer zulässigen Episode, nicht einer Einheit. Einheiten, die mehrere Episoden beisteuern, erhalten entsprechend mehr Gewicht.
Die Logik der Gewichtung bleibt identisch: Innerhalb jeder Episoden-Typ-Kombination (basierend auf Historie und Zeitpunkt) wird Matching/Gewichtung angewendet, gefolgt von der korrigierenden Aggregation über alle Episoden-Typen.

3. Wichtige Beiträge

Einheitlicher Rahmen: Das Paper bietet einen vereinheitlichten Rahmen, der Matching-basierte und gewichtungs-basierte Verfeinerungen innerhalb desselben Schätzers integriert. Beide Ansätze werden als nicht-negative Design-Gewichte dargestellt.
Erweiterung auf wiederholte Behandlungen: Es wird gezeigt, wie die Logik der gewichteten gestapelten DID auf wiederholte $0 \to 1$ und $1 \to 0$ Episoden unter der Annahme eines endlichen Gedächtnisses übertragen werden kann. Dies schließt eine Lücke zwischen gewichteter gestapelter DID und episode-basierten Designs wie PanelMatch.
Software-Implementierung: Der Autor stellt das R-Paket cbwsdid auf GitHub bereit, das die Implementierung des Schätzers in der Praxis ermöglicht.

4. Ergebnisse

A. Simulation

In einer Monte-Carlo-Simulation mit 5000 Wiederholungen, bei der unbehandelte Trends systematisch mit der Behandlungszeit korreliert sind (Verletzung der unbedingten parallelen Trends):

Verzerrung: Herkömmliche gestapelte DID und gewichtete gestapelte DID (ohne Kovariaten-Anpassung) zeigen starke negative Vor-Trends und signifikante Verzerrungen in den Nachbehandlungseffekten.
Verbesserung: Sowohl die Matching- als auch die Gewichtungsversion von CBWSDID reduzieren die Vor-Trends drastisch und nähern sich dem wahren dynamischen Effekt an.
Vergleich: Die gewichtungsbasierte Version (Entropy Balancing) performt in dieser spezifischen Simulation leicht besser als die Matching-Version, wobei der Autor betont, dass Matching in der Praxis oft durch sorgfältige Tuning-Parameter (z. B. Kaliber, Anzahl der Matches) optimiert werden kann.

B. Empirische Anwendungen

Fair Housing Act (Trounstine, 2020):
- Kontext: Analyse des Effekts der Annahme des Fair Housing Act auf die „Weißheit" (Segregation) von Städten.
- Ergebnis: Unverfeinerte Schätzer (TWFE, Sun-Abraham, einfache gestapelte DID) zeigen starke positive Vor-Trends und einen signifikanten Abfall der Segregation nach der Behandlung.
- CBWSDID-Effekt: Nach Anwendung von Matching oder Gewichtung verschwinden die Vor-Trends (werden nahe Null). Der postulierte starke Abfall der Segregation nach der Behandlung wird stark abgeschwächt und ist statistisch nicht mehr signifikant von Null verschieden.
- Fazit: Die scheinbaren Effekte in früheren Studien waren wahrscheinlich auf mangelnde Vergleichbarkeit der Kohorten zurückzuführen, nicht auf die Behandlung selbst.
Demokratie und Wachstum (Acemoglu et al., 2019):
- Kontext: Effekt von Demokratisierung ( $0 \to 1$ ) und Autokratisierung ( $1 \to 0$ ) auf das BIP pro Kopf.
- Vergleich: CBWSDID wird mit PanelMatch verglichen.
- Ergebnis: Beide Methoden liefern sehr ähnliche substantielle Schlussfolgerungen: Demokratisierung hat kurzfristig schwache Effekte, Autokratisierung hat persistente negative Effekte.
- Vorteil: CBWSDID liefert dabei geringere Varianzschätzer und bleibt im Rahmen des gewichteten gestapelten DID, was die Diagnose und Erweiterung erleichtert.

5. Bedeutung und Fazit

Das Paper positioniert CBWSDID nicht als Ersatz für moderne DID-Schätzer oder Panel-Matching-Verfahren, sondern als Brücke zwischen ihnen.

Es bewahrt die transparente Aggregationslogik und den klar definierten Zielparameter (Target Estimand) der gewichteten gestapelten DID (nach Wing et al.).
Gleichzeitig importiert es die Design-Sensitivität von Matching- und Gewichtungsmethoden, um die Vergleichbarkeit innerhalb der Kohorten zu gewährleisten.

Für empirische Forscher in anspruchsvollen Settings mit gestaffelter oder wiederholter Behandlung bietet CBWSDID eine praktische Lösung, um Verzerrungen durch ungleiche Kohorten und Verletzungen der parallelen Trends zu minimieren, ohne dabei die Vorteile einer aggregierten, regressionsbasierten Schätzung aufzugeben. Die Verfügbarkeit des R-Pakets macht die Methode zudem direkt anwendbar.