Jackknife inference with two-way clustering

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je niet in de valkuil van "twee-weg" statistiek terechtkomt: Een verhaal over clusters, jackknifes en betrouwbare antwoorden

Stel je voor dat je een onderzoek doet naar hoe goed mensen presteren op school. Je hebt data van duizenden leerlingen, maar je weet dat leerlingen niet allemaal onafhankelijk van elkaar zijn. Ze zitten in klassen (groep A, groep B) én ze wonen in verschillende buurten (buurt 1, buurt 2).

In de statistiek noemen we dit twee-weg clustering. Je hebt twee soorten "groepen" die invloed hebben op je resultaten. De oude manier om hiermee om te gaan, was een beetje als een oude, versleten meetlat: hij gaf vaak een antwoord, maar die antwoord was soms onbetrouwbaar, of in het ergste geval, gewoon onmogelijk te berekenen.

De auteurs van dit paper (MacKinnon, Nielsen en Webb) hebben een nieuwe, slimmere manier bedacht om deze meetlat te vervangen. Hier is hoe het werkt, vertaald in alledaags taal:

1. Het Probleem: De "Onmogelijke" Meetlat

Stel je voor dat je een gewicht probeert te meten met een weegschaal die soms denkt dat het gewicht negatief is. Dat kan niet! In de statistiek gebeurt dit als je een berekening doet voor de onzekerheid (de standaardfout) en de uitkomst "niet positief" is.

Bij twee-weg clustering (klassen én buurten) gebeurt dit vaak. De oude methoden (die we CV1 noemen) proberen de onzekerheid te berekenen door drie stukken bij elkaar te tellen en één stukje eraf te trekken. Soms is dat "eraf trekken" zo groot dat je uitkomt op een negatief getal.

Het gevolg: Je computer geeft een foutmelding, of je krijgt een antwoord dat er heel sterk uitziet, maar volledig verkeerd is. Het is alsof je zegt: "De kans dat dit klopt is 1000%!" (wat natuurlijk onzin is).

2. De Oplossing 1: De "Max-SE" Regel (De Veilige Schermprijs)

De auteurs zeggen: "Als je niet zeker bent welke van je drie berekeningen de juiste is, kies dan gewoon de veiligste."

Stel je voor dat je drie vrienden vraagt hoe ver het naar de stad is:

Vriend A zegt: 10 km.
Vriend B zegt: 15 km.
Vriend C zegt: "Ik weet het niet, maar het is misschien oneindig ver."

In de oude statistiek zou je proberen een gemiddelde te maken, wat soms tot gekke resultaten leidt. De nieuwe Max-SE methode zegt simpelweg: "Kijk naar de drie antwoorden en kies de grootste afstand."

Waarom? Omdat een grotere afstand (een grotere standaardfout) betekent dat je voorzichtig bent. Je zegt: "Oké, het kan 15 km zijn, maar we gaan uit van het slechtste geval."
Dit voorkomt dat je per ongeluk een te optimistisch resultaat krijgt. Het is de statistische versie van: "Beter te laat komen dan te snel rijden."

3. De Oplossing 2: De Cluster-Jackknife (De Koffiebar-Test)

Dit is de echte ster van het verhaal. De auteurs introduceren een nieuwe methode die ze de Cluster-Jackknife noemen.

De Analogie:
Stel je hebt een grote koffiebar met 100 klanten (je data). Je wilt weten hoe tevreden ze zijn.

De oude manier (CV1): Je vraagt aan iedereen wat ze vinden en telt het gemiddelde. Maar als één klant heel luidruchtig is (een "uitbijter"), verpest die ene persoon het gemiddelde voor iedereen.
De Jackknife-methode: Je doet alsof je de koffiebar een beetje herschikt.
1. Je haalt één klant weg en vraagt de rest opnieuw.
2. Je haalt een andere klant weg en vraagt de rest opnieuw.
3. Je doet dit voor elke klant.

Door te kijken hoe veel het antwoord verandert als je iemand weghaalt, zie je hoe stabiel je resultaat echt is. Als het antwoord elke keer heel anders is als je één persoon weghaalt, dan is je resultaat onbetrouwbaar. Als het antwoord stabiel blijft, kun je erop vertrouwen.

De auteurs hebben dit idee nu aangepast voor twee-weg clustering. Ze doen dit niet alleen voor de klassen, niet alleen voor de buurten, maar ook voor de combinatie van beide.

Het resultaat: Deze methode is veel robuuster. Hij geeft zelden "negatieve" of onmogelijke antwoorden. Hij is als een meetlat die nooit breekt, zelfs niet als de grond onder je wankelt.

4. Waarom is dit belangrijk? (De Proef)

De auteurs hebben dit getest in duizenden simulaties (virtuele experimenten).

Situatie: Ze maakten data met grote verschillen in groepsgrootte (sommige klassen hebben 5 leerlingen, andere 500) en met veel lege combinaties (sommige buurten hebben geen leerlingen uit bepaalde klassen).
Vindst: De oude methoden faalden vaak. Ze gaven te vaak aan dat iets "significant" was (een belangrijk effect), terwijl het niets voorstelde.
De winnaar: De nieuwe Jackknife-methode met de Max-SE regel gaf bijna altijd het juiste antwoord. Het was als een kompas dat altijd naar het noorden wijst, zelfs in een storm.

5. De Praktijk: Twee Voorbeelden

Ze testten hun methode op twee echte onderzoeken:

De Tsetsevlieg in Afrika: Onderzoek naar hoe de aanwezigheid van deze vlieg de economische ontwikkeling beïnvloedt. De oude methode zei: "Het effect is enorm en zeker!" De nieuwe methode zei: "Het effect is er, maar we moeten iets voorzichtig zijn; het is misschien niet zo groot als we dachten."
Minimumloon in Canada: Onderzoek naar het effect van het minimumloon op de lonen van jonge immigranten. De oude methode zei: "Het werkt perfect!" De nieuwe methode zei: "We kunnen dat niet met zekerheid zeggen; de data is te rommelig om een sterk bewijs te leveren."

Conclusie: Wat betekent dit voor jou?

Als je ooit statistieken leest of zelf onderzoek doet met groepen (zoals landen, jaren, scholen, bedrijven), pas dan op met de oude methoden. Ze kunnen je een vals gevoel van zekerheid geven.

De boodschap van dit paper is simpel:

Gebruik de Jackknife-methode (de "weglaten en opnieuw kijken" techniek) en kies altijd voor de veiligste, grootste onzekerheid als je twijfelt.

Zo zorg je ervoor dat je conclusies niet gebaseerd zijn op toeval of rekenfouten, maar op harde, betrouwbare feiten. Ze hebben zelfs een gratis softwarepakket (twowayjack) gemaakt voor Stata (een statistisch programma) zodat iedereen dit nu al kan toepassen.

Kort samengevat: De oude meetlat was soms gebroken. De nieuwe meetlat is gemaakt van onbreekbaar glas en heeft een ingebouwde veiligheidsrem. Gebruik die!

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Jackknife Inference with Two-Way Clustering" van MacKinnon, Nielsen en Webb, in het Nederlands.

1. Het Probleem: Inferentie bij Twee-Weg Clustering

Bij lineaire regressiemodellen met cross-sectionele of paneldata is het vaak noodzakelijk om aan te nemen dat de storings termen (disturbances) geclusterd zijn in twee dimensies (bijvoorbeeld tijd en regio, of industrie en land). Hoewel tweeweg-geclusterde robuuste variantie-schattingen (Cluster-Robust Variance Estimators, CRVE) breed worden gebruikt, zijn de eigenschappen in steekproeven van beperkte omvang (finite-sample properties) vaak slecht.

De kernproblemen die in dit artikel worden geïdentificeerd, zijn:

Niet-positief definiete variantiematrices: De meest gebruikte schatter, de drie-term CRVE ( $\hat{V}^{(3)}_1$ , ook wel CV1 genoemd), is in eindige steekproeven niet gegarandeerd positief definiet. Dit kan leiden tot niet-gedefinieerde standaardfouten of extreem grote teststatistieken.
Onder- of overschatting: Bestaande methoden om dit op te lossen (zoals het gebruik van eigenwaarde-decompositie om negatieve eigenwaarden op nul te zetten) kunnen leiden tot misleidende resultaten. Andere methoden (zoals het weglaten van de derde term, de twee-term schatter) kunnen leiden tot te conservatieve inferentie (onder-rejectie) als er correlatie bestaat op het intersectieniveau.
Heterogeniteit: Traditionele schatters (CV1) presteren slecht bij grote variatie in clustergroottes en bij de aanwezigheid van cluster-vaste effecten.

2. Methodologie en Oplossingen

De auteurs stellen een reeks methoden voor om deze problemen aan te pakken, met een sterke focus op het uitbreiden van de cluster-jackknife methode naar twee dimensies.

A. Verbeteringen voor de CV1-schatter (Conventionele methode)

Om het probleem van niet-positief definiete matrices op te lossen, worden drie benaderingen besproken:

Eigenwaarde-decompositie: Negatieve eigenwaarden worden op nul gezet (of een zeer klein positief getal). Dit is numeriek veilig maar kan leiden tot grote standaardfouten.
Twee-term schatter: Het weglaten van de intersectie-term ( $\hat{V}^{(2)}_1 = \hat{V}_G + \hat{V}_H$ ). Dit is altijd positief definiet en conservatiever, maar kan asymptotisch vertekend zijn als er correlatie is op het intersectieniveau.
De "Max-SE" procedure (Nieuw): Voor het testen van een enkele restrictie wordt de grootste van drie standaardfouten gekozen: die gebaseerd op de drie-term schatter, de G-dimensie, en de H-dimensie. Als de drie-term schatter niet positief definiet is, wordt deze genegeerd. Dit voorkomt zowel niet-gedefinieerde waarden als misleidend grote waarden.

B. De Twee-Weg Cluster-Jackknife Schatter (CV3)

De belangrijkste innovatie is de uitbreiding van de cluster-jackknife methode (CV3) naar twee dimensies.

Berekeningswijze: In plaats van te werken met residuen (zoals bij CV1), worden er drie sets van parameter-schattingen berekend waarbij telkens één cluster wordt weggelaten (respectievelijk voor dimensie G, dimensie H, en de intersecties I).
De Schatter: De variantiematrix wordt geschat als $\hat{V}^{(3)}_3 = \hat{V}^{JK}_G + \hat{V}^{JK}_H - \hat{V}^{JK}_I$ .
Computationele Uitdagingen: Bij twee-weg vaste effecten kan het omkeren van matrices problematisch zijn. De auteurs bespreken hoe dit opgelost kan worden (bijv. via gegeneraliseerde inversen of het "partial out"-proces met de nodige voorzichtigheid).
Gemengde Schatter: Om rekentijd te besparen, kan de intersectie-term ( $\hat{V}^{JK}_I$ ) worden vervangen door de conventionele CV1-schatter voor de intersectie ( $\hat{V}_I$ ), wat resulteert in een gemengde schatter $\hat{V}^{(3)}_{3,1}$ .

3. Theoretische Eigenschappen

De auteurs bewijzen in Sectie 4 de consistentie van de nieuwe tweeweg cluster-jackknife schatters onder specifieke aannames (Assumpties 1 en 2), waaronder beperkingen op de heterogeniteit van clustergroottes en momentvoorwaarden.

Consistentie: De schatters $\hat{V}^{(3)}_3$ , $\hat{V}^{(3+)}_3$ en $\hat{V}^{(3)}_{3,1}$ convergeren in waarschijnlijkheid naar de ware variantie.
Robuustheid: In tegenstelling tot CV1-schatters, die in eindige steekproeven ernstig onderwaarde kunnen schatten (downward bias), zijn jackknife-schatters (CV3) minder vertekend. Ze behandelen variatie in clustergroottes en heterogeniteit beter, wat cruciaal is bij tweeweg-ontwerpen.
Asymptotische Grootte: Tests gebaseerd op deze jackknife-schatters hebben de juiste asymptotische grootte (size) en de bijbehorende betrouwbaarheidsintervallen hebben de juiste dekking.

4. Simulatie-resultaten

Uitgebreide simulaties (Sectie 5) vergelijken acht verschillende testmethoden (combinaties van CV1/CV3 en één/twee/drie-term schatters) onder verschillende omstandigheden:

Variatie in clustergroottes: CV3-methode (vooral de max-se variant) behoudt de nominale grootte (5%) zelfs bij sterke variatie in clustergroottes, terwijl CV1-methoden sterk overschatten (over-rejectie).
Interne-cluster correlatie: Bij zeer lage correlatie vertonen twee-term methoden en eigenwaarde-correcties (3+) ernstige onder-rejectie. CV3-methoden presteren hier veel beter.
Aantal regressoren: Bij een groot aantal regressoren (vooral vaste effecten) worden CV1-methoden steeds onbetrouwbaarder (sterke over-rejectie), terwijl CV3-methoden stabiel blijven.
Lege intersecties: De CV3-methoden zijn robuust tegenover datasets met veel lege intersecties, terwijl CV1-methoden hier last van hebben.
Conclusie: De CV(max)3 methode (cluster-jackknife met de max-SE procedure) levert in de meeste scenario's de meest betrouwbare inferentie, met een afwijking van de nominale grootte die vaak verwaarloosbaar is.

5. Empirische Toepassingen

Het artikel presenteert twee empirische voorbeelden:

De Tsetsevlieg en Afrikaanse Ontwikkeling (Alsan, 2015): Bij dit onderzoek met kleine clusters en veel lege intersecties leiden conventionele methoden tot significante resultaten die bij gebruik van de CV(max)3-methode vaak niet meer significant zijn. Dit suggereert dat eerdere conclusies mogelijk te optimistisch waren.
Minimale lonen in Canada: Een dataset met weinig clusters (12 jaar, 10 provincies) en grote variatie in clustergrootte. Conventionele methoden tonen een sterk significant effect van minimale lonen op verdiensten. Echter, placebo-simulaties tonen aan dat conventionele methoden hier volledig falen (zeer hoge type I-fouten). De CV(max)3-methode geeft een niet-significant resultaat, wat beter overeenkomt met de beperkte datakwaliteit.

6. Belang en Bijdrage

De belangrijkste bijdragen van dit artikel zijn:

Nieuwe Methodologie: Het introduceren en bewijzen van de consistentie van tweeweg cluster-jackknife schatters (CV3).
Praktische Oplossing: De "max-se" procedure is een eenvoudige, maar effectieve manier om problemen met niet-positief definiete matrices te omzeilen zonder de theoretische eigenschappen te verliezen.
Software: De auteurs hebben een Stata-pakket, twowayjack, ontwikkeld dat deze schatters implementeert en ook diagnostische statistieken (zoals effectieve aantal clusters en variatiecoëfficiënten) berekent om de gebruiker te helpen de geschiktheid van de data te beoordelen.
Advies voor Empirisch Werk: Het artikel adviseert onderzoekers om bij tweeweg clustering niet langer te vertrouwen op de standaard CV1-methode, maar over te stappen op de cluster-jackknife methode (CV3), gecombineerd met de max-se procedure en kritische waarden gebaseerd op de t-verdeling met $\min(G, H) - 1$ vrijheidsgraden.

Samenvattend biedt dit artikel een robuust theoretisch en praktisch kader voor het uitvoeren van betrouwbare statistische inferentie in lineaire regressiemodellen met tweeweg clustering, een situatie die in de empirische economie steeds vaker voorkomt maar waarvoor eerdere methoden vaak tekortschoten.