Jackknife inference with two-way clustering

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Wenn die Statistik „verwirrt" ist

Stellen Sie sich vor, Sie sind ein Forscher, der herausfinden will, ob ein bestimmter Faktor (z. B. ein neues Medikament oder eine Steueränderung) einen echten Effekt hat. Sie sammeln Daten von vielen Menschen.

Normalerweise nehmen Forscher an, dass die Datenpunkte (die Menschen) unabhängig voneinander sind. Aber in der realen Welt ist das selten der Fall. Menschen sind in Gruppen organisiert: Sie wohnen in bestimmten Städten (Dimension 1) und arbeiten in bestimmten Branchen (Dimension 2).

Das ist wie ein Schachbrett:

Die waagerechten Linien sind die Städte.
Die senkrechten Linien sind die Branchen.
Ein Feld (eine „Zelle") ist die Kombination aus einer Stadt und einer Branche.

Das Problem: Menschen in derselben Stadt ähneln sich oft (gleiche Infrastruktur, Wetter). Menschen in derselben Branche ähneln sich auch (gleiche Arbeitsbedingungen). Wenn Sie nun die Daten analysieren, müssen Sie diese beiden Gruppenstrukturen gleichzeitig berücksichtigen. Das nennt man „Two-Way Clustering".

Der alte Weg: Ein wackeliger Stuhl

Bisher gab es eine Standardmethode, um die Unsicherheit (den „Fehler") bei diesen Berechnungen zu messen. Man kann sich diese Methode wie einen Stuhl mit drei Beinen vorstellen.

Bein 1: Die Städte.
Bein 2: Die Branchen.
Bein 3: Die Kombination aus beiden (die Zellen auf dem Schachbrett).

Die Mathematik sagt: „Nimm die Unsicherheit von Bein 1, addiere sie zu Bein 2, und ziehe dann Bein 3 ab, damit wir nichts doppelt zählen."

Das Problem: In kleinen Datensätzen (was in der Forschung oft vorkommt) ist dieser Stuhl oft instabil. Manchmal ist das dritte Bein so lang oder so kurz, dass der Stuhl umkippt. In der Mathematik heißt das: Die Berechnung ergibt ein negatives Ergebnis oder ist gar nicht definiert.

Die Folge: Der Computer sagt: „Ich kann keine verlässliche Antwort geben." Oder schlimmer noch: Er gibt eine Antwort, die völlig falsch ist (z. B. sagt er, ein Effekt sei riesig, obwohl er gar nicht existiert).

Die Autoren des Papers sagen: „Das ist gefährlich! Wir brauchen einen stabileren Stuhl."

Die Lösung 1: Der „Maximal-Sicherheits-Gürtel"

Die Autoren schlagen eine sehr einfache, aber clevere Lösung vor, wenn der Stuhl wackelt. Statt sich auf die komplizierte Dreibein-Rechnung zu verlassen, schauen sie sich drei separate, einfachere Stühle an:

Nur die Städte.
Nur die Branchen.
Die komplizierte Kombination.

Die Regel: „Nimm immer den größten Fehlerwert (die größte Unsicherheit) aus diesen drei Möglichkeiten."

Stellen Sie sich vor, Sie müssen eine Brücke überqueren. Sie prüfen drei verschiedene Routen.

Route A ist 10 Meter breit.
Route B ist 12 Meter breit.
Route C ist unsicher und vielleicht nur 5 Meter breit.

Die Autoren sagen: „Wir gehen nicht auf die schmale Route C. Wir nehmen die breiteste, sicherste Route (hier 12 Meter)."
Das klingt konservativ (vorsichtig), aber es ist viel sicherer. Es verhindert, dass Sie in eine falsche Sicherheit verfallen. Wenn die Daten wirklich gut sind, sind alle Wege ähnlich breit. Wenn die Daten schlecht sind, wählt diese Methode den Weg, der Sie am wenigsten in Gefahr bringt.

Die Lösung 2: Der „Jackknife" (Der Kuchenschneider)

Das ist der zweite, wichtigere Teil des Papers. Die Autoren schlagen vor, eine alte Technik namens Jackknife (aus dem Englischen für Taschenmesser) zu nutzen.

Die Analogie:
Stellen Sie sich vor, Sie haben einen großen Kuchen (Ihre Daten) und wollen wissen, wie fest er ist.

Die alte Methode schaut sich den ganzen Kuchen an und versucht, die Festigkeit zu erraten.
Die Jackknife-Methode ist wie ein sehr vorsichtiger Bäcker. Er schneidet ein Stück vom Kuchen ab (eine ganze Gruppe von Daten, z. B. alle Menschen aus einer Stadt), backt den Rest neu und schaut: „Wie sehr ändert sich das Ergebnis, wenn dieses eine Stück fehlt?"
Dann macht er das mit dem nächsten Stück, und dem nächsten, und dem nächsten.
Am Ende schaut er sich an, wie stark die Ergebnisse schwanken, wenn er immer ein Stück wegnimmt.

Warum ist das besser?
Die alte Methode (der wackelige Stuhl) ignoriert oft, dass manche Gruppen riesig sind und andere winzig. Die Jackknife-Methode berücksichtigt das genau. Sie „wiegt" die Gruppen richtig.
Die Autoren haben gezeigt, dass diese Methode auch für das zweidimensionale Schachbrett funktioniert. Sie bauen einen neuen, viel stabileren Stuhl, der auch bei kleinen Datensätzen nicht umkippt.

Was bedeutet das für die Praxis?

Die Autoren haben viele Tests (Simulationen) gemacht, wie ein Wissenschaftler im Labor.

Ergebnis: Die alten Methoden (der wackelige Stuhl) haben oft zu viele „falsche Entdeckungen" gemacht. Sie sagten: „Das ist signifikant!", obwohl es nur Zufall war.
Die neue Methode: Sie ist etwas vorsichtiger. Sie sagt öfter: „Wir sind uns nicht sicher." Aber wenn sie sagt: „Das ist signifikant!", dann können Sie ihr wirklich trauen.

Sie haben auch eine Software für das Programm Stata geschrieben (ein Tool für Statistiker), die diese neue, sichere Methode automatisch berechnet.

Zusammenfassung in einem Satz

Wenn Sie Daten analysieren, die in zwei Gruppen (z. B. Orte und Zeit) eingeteilt sind, ist die alte Rechenmethode oft instabil und liefert falsche Ergebnisse; die Autoren schlagen vor, entweder den „sichersten" der drei möglichen Wege zu wählen oder eine neue, sehr robuste Methode (Jackknife) zu nutzen, die wie ein vorsichtiger Bäcker arbeitet, der immer prüft, was passiert, wenn man ein Stück des Kuchens wegnimmt.

Der Takeaway: In der Wissenschaft ist es besser, vorsichtig und etwas langsamer zu sein, als schnell zu einem falschen Ergebnis zu kommen. Diese Methode sorgt dafür, dass die Ergebnisse, die wir veröffentlichen, wirklich haltbar sind.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Jackknife Inference with Two-Way Clustering" von MacKinnon, Nielsen und Webb auf Deutsch.

1. Problemstellung

In der Ökonometrie ist es bei linearen Regressionsmodellen mit Querschnitts- oder Paneldaten üblich, dass die Störgrößen in zwei Dimensionen gruppiert (geclustert) sind. Obwohl die asymptotische Theorie für zweidimensionale Cluster-robuste Varianzschätzer (Two-Way Cluster-Robust Variance Estimators, CRVE) in den letzten Jahren entwickelt wurde, sind die Eigenschaften in endlichen Stichproben (finite-sample properties) oft unbefriedigend.

Das Hauptproblem liegt in der Konstruktion des Standard-Varianzschätzers (oft als $CV^{(3)}_1$ bezeichnet), der auf der Cameron, Gelbach und Miller (2011) Methode basiert. Dieser Schätzer setzt sich aus drei Termen zusammen (Summe der Varianzen der beiden Cluster-Dimensionen minus der Varianz der Schnittmenge).

Nicht-Positive Definitheit: In endlichen Stichproben ist diese Matrix nicht garantiert positiv definit. Dies führt dazu, dass Standardfehler undefiniert oder negativ sein können, was die Berechnung von t-Statistiken und Wald-Tests unmöglich macht.
Verzerrungen: Selbst wenn die Matrix positiv definit ist, können die Standardfehler stark verzerrt sein, insbesondere wenn die Cluster-Größen heterogen sind oder wenn viele leere Schnittmengen (empty intersections) existieren.
Reparaturversuche: Bisherige Lösungen wie die Eigenwert-Zerlegung (Setzen negativer Eigenwerte auf Null) oder das Weglassen des dritten Terms (zwei-Term-Schätzer) führen oft zu übermäßig konservativen Tests oder ändern die Ergebnisse willkürlich basierend auf der Parametrisierung (z. B. Referenzkategorie bei Fixeffekten).

2. Methodik und Neuerungen

Die Autoren schlagen zwei Hauptansätze vor, um diese Probleme zu lösen:

A. Die „Max-SE"-Prozedur (Maximale Standardfehler-Methode)

Um das Problem der nicht-positiv-definiten Matrix zu umgehen, schlagen die Autoren eine einfache, aber effektive Methode vor:

Anstatt die dreiteilige Matrix $\hat{V}^{(3)}_1$ $\hat{V}_{1}^{(3)}$ zu verwenden, werden drei separate Wald-Statistiken berechnet:
1. Basierend auf der dreiteiligen Matrix (sofern positiv definit).
2. Basierend auf der einseitigen Cluster-Varianz für Dimension G ( $\hat{V}_G$ ).
3. Basierend auf der einseitigen Cluster-Varianz für Dimension H ( $\hat{V}_H$ ).
Für die Hypothesenprüfung wird der kleinste positive Wald-Wert (bzw. der größte Standardfehler) gewählt.
Vorteil: Dies garantiert, dass der Test nicht auf einer undefinierten oder irreführend großen Statistik basiert. Asymptotisch sind alle drei Schätzer identisch, wenn echte zweidimensionale Clusterung vorliegt, aber in endlichen Stichproben schützt die Max-SE-Methode vor extremen Verzerrungen.

B. Cluster-Jackknife CRVEs (CV3)

Der wichtigste Beitrag des Papers ist die Erweiterung des Cluster-Jackknife-Verfahrens (bekannt als CV3-Schätzer für eindimensionale Clusterung) auf den zweidimensionalen Fall.

Konstruktion: Anstatt die Varianz um den OLS-Schätzer $\hat{\beta}$ zu berechnen, werden für jede Cluster-Dimension (G, H und die Schnittmenge I) separate OLS-Schätzer berechnet, bei denen jeweils ein Cluster (oder eine Schnittmenge) weggelassen wird ( $\hat{\beta}^{(j)}$ ).
Die Varianzmatrix wird dann aus der Variation dieser „Leave-One-Out"-Schätzer konstruiert:
$\hat{V}^{JK}_J = \frac{J}{J-1} \sum_{j=1}^J (\hat{\beta}^{(j)} - \hat{\beta})(\hat{\beta}^{(j)} - \hat{\beta})^\top$
Der zweidimensionale Jackknife-Schätzer ist analog zum CV1-Schätzer definiert: $\hat{V}^{(3)}_3 = \hat{V}^{JK}_G + \hat{V}^{JK}_H - \hat{V}^{JK}_I$ .
Theoretische Eigenschaften: Die Autoren beweisen die Konsistenz dieses Schätzers unter allgemeinen Annahmen (Assumption 1 & 2). Im Gegensatz zu CV1-Schättern neigen Jackknife-Schätzer dazu, nicht nach unten verzerrt zu sein, was sie in endlichen Stichproben robuster macht.
Berechnung bei Fixeffekten: Bei Modellen mit zweidimensionalen Fixeffekten (Two-Way Fixed Effects) ist die direkte Inversion der Matrizen problematisch. Die Autoren diskutieren Lösungen, wie das Weglassen von Substichproben (nicht praktikabel bei Fixeffekten) oder die Verwendung verallgemeinerter Inversen, wobei letztere effektiv zu einer Varianzschätzung für die Koeffizienten der interessierenden Variablen führt.

3. Simulationsergebnisse

Die Autoren führen umfangreiche Simulationen durch, um die Leistung verschiedener Verfahren zu vergleichen. Die Ergebnisse zeigen:

Überlegenheit von CV3: Tests, die auf dem Cluster-Jackknife-Schätzer ( $CV^{(3)}_3$ oder $CV^{(max)}_3$ ) basieren, liefern in den meisten Szenarien deutlich genauere Ablehnungsraten (Rejection Frequencies) nahe dem nominalen Niveau (z. B. 5 %) als die traditionellen CV1-Verfahren.
Robustheit gegenüber Heterogenität: Während CV1-Tests bei stark variierenden Clustergrößen oder vielen Regressoren stark über-ablehnen (Over-rejection), bleiben CV3-Tests stabil.
Leere Schnittmengen: Auch bei vielen leeren Schnittmengen (empty intersections) zwischen den Cluster-Dimensionen performt der Jackknife-Schätzer gut, da er die Struktur der Daten besser handhabt.
Schwache Korrelation: Bei sehr schwacher intra-Cluster-Korrelation neigen CV1-Tests (und auch zwei-Term-Verfahren) zu starker Unter-ablehnung (Under-rejection). Der CV3-Max-SE-Test bleibt hier am zuverlässigsten.
Einfluss der Regressoren: Die Anzahl der Regressoren und deren Korrelationsstruktur innerhalb der Cluster beeinflusst die CV1-Tests stark, während CV3-Tests weniger empfindlich reagieren.

4. Empirische Anwendungen

Die Autoren wenden ihre Methoden auf zwei reale Datensätze an:

Tsetse-Fliege und afrikanische Entwicklung (Alsan, 2015): Hier zeigen sich signifikante Unterschiede zwischen den P-Werten der CV1- und CV3-Methoden. Die CV3-Methoden liefern konservativere (und nach den Simulationen zuverlässigere) P-Werte, was die Stärke der ursprünglichen Schlussfolgerungen etwas abschwächt.
Mindestlöhne in Kanada: In diesem Fall mit wenigen Clustern (12 Jahre, 10 Provinzen) und stark heterogenen Clustergrößen liefern alle konventionellen Methoden signifikante Ergebnisse. Die „Placebo-Regressions"-Simulationen zeigen jedoch, dass die konventionellen P-Werte irreführend sind (hohe Fehlklassifikationsraten). Die CV3-Max-SE-Methoden liefern P-Werte nahe 0,08 und Placebo-Ablehnungsraten nahe dem nominalen Niveau, was darauf hindeutet, dass der Effekt statistisch nicht signifikant ist.

5. Signifikanz und Fazit

Praktische Relevanz: Das Paper liefert eine dringend benötigte Lösung für ein weit verbreitetes Problem in der angewandten Ökonometrie. Die Standard-Software (z. B. Stata) verwendet oft Schätzer, die in endlichen Stichproben unzuverlässig sind.
Software: Die Autoren stellen das Stata-Paket twowayjack zur Verfügung, das die empfohlenen Schätzer ( $CV^{(max)}_3$ ) sowie Diagnosestatistiken (wie den effektiven Cluster-Zahl $G^*$ und Variationskoeffizienten für Hebelwirkung) implementiert.
Empfehlung: Die Autoren raten dringend davon ab, sich auf die traditionellen CV1-Schätzer oder die Eigenwert-Korrektur zu verlassen. Stattdessen sollte der Cluster-Jackknife-Schätzer in Kombination mit der Max-SE-Prozedur verwendet werden, da er asymptotisch gültig ist und in endlichen Stichproben deutlich robustere Inferenzen liefert.

Zusammenfassend stellt dieses Paper einen Paradigmenwechsel dar: Anstatt die Probleme der CV1-Schätzer durch ad-hoc-Korrekturen zu maskieren, bietet es eine theoretisch fundierte und empirisch überlegene Alternative (CV3) für zweidimensionale Clusterung.