When Can We Trust Cluster-Robust Inference?

Each language version is independently generated for its own context, not a direct translation.

Wanneer kun je vertrouwen op je statistische resultaten? Een uitleg van het paper van James MacKinnon

Stel je voor dat je een grote enquête doet onder mensen om te zien of een nieuwe lesmethode hun cijfers verbetert. Je hebt niet zomaar 1000 losse mensen; je hebt 20 klassen met elk 50 leerlingen. Als je de resultaten analyseert, moet je rekening houden met het feit dat leerlingen in dezelfde klas meer op elkaar lijken dan op leerlingen uit een andere klas (misschien hebben ze dezelfde leraar, of zitten ze in dezelfde buurt). In de statistiek noemen we dit clusters.

Het paper van James MacKinnon gaat over de vraag: Hoe betrouwbaar zijn onze conclusies als we met deze groepen (clusters) werken?

Hier is de kern van het verhaal, vertaald naar alledaagse taal met een paar creatieve metaforen.

1. Het Probleem: De "Grote Groep" Illusie

Stel je voor dat je een gerecht wilt beoordelen door te proeven. Als je 100 losse hapjes neemt van 100 verschillende borden, heb je een goed beeld. Maar als je 100 hapjes neemt van slechts 2 borden (waarvan elke hap bijna hetzelfde smaakt), denk je misschien dat je veel proefde, maar in feite heb je maar twee borden beoordeeld.

In de statistiek is het aantal clusters (de borden) veel belangrijker dan het totale aantal observaties (de hapjes).

De valkuil: Veel onderzoekers denken: "Ik heb 1000 leerlingen, dus mijn resultaten zijn super betrouwbaar." MacKinnon zegt: "Nee, als die 1000 leerlingen in slechts 10 klassen zitten, heb je eigenlijk maar 10 onafhankelijke gegevenspunten."
Het risico: Als je te weinig klassen hebt, of als de klassen heel verschillend zijn (bijvoorbeeld één klas met 500 leerlingen en negen klassen met 10), kunnen je statistische tests je bedriegen. Ze zeggen dan vaak: "Dit is significant!" terwijl het toeval is. Het is alsof je een munt opgooit en denkt dat je een magische kracht hebt omdat je drie keer op rij 'kop' hebt gegooid.

2. De Gereedschapskist: Verschillende Manieren om te Meten

Omdat de standaardmethode vaak faalt bij kleine groepen, hebben wetenschappers verschillende "gereedschappen" (methoden) ontwikkeld om de onzekerheid beter te meten. MacKinnon vergelijkt dit met het kiezen van de juiste maatstaf voor een kledingstuk.

De oude maatstaf (CV1): Dit is de standaardmethode die iedereen gebruikt. Hij werkt goed als je veel gelijkmatige groepen hebt. Maar bij kleine of ongelijke groepen is deze maatstaf vaak te kort; hij maakt de onzekerheid te klein en je denkt dat je resultaten sterker zijn dan ze zijn.
De veiligere maatstaf (CV3 / Cluster Jackknife): Stel je voor dat je een taart maakt en je haalt één voor één een schepje uit de taart om te kijken of de smaak verandert. Als je dat voor elke groep doet, krijg je een veel realistischer beeld van de variatie. Deze methode is vaak iets conservatiever (hij zegt vaker "we zijn niet zeker"), maar dat is beter dan te snel een conclusie trekken.
De "Wild" Bootstraps (WCB): Dit is alsof je een simulatie doet. Je neemt je data, gooit ze in een computer, en laat de computer duizenden keren een "virtuele wereld" nabootsen waarin de uitkomsten net iets anders zijn. Als je in die duizenden virtuele werelden steeds dezelfde conclusie trekt, kun je erop vertrouwen. Er zijn verschillende varianten, maar de nieuwste versies (zoals WCR-S) werken vaak het beste.

3. De Test: Hoe weet je wat je kunt vertrouwen?

Het vervelende is dat er geen enkele methode is die altijd werkt. Soms werkt de ene methode goed, soms de andere. MacKinnon stelt een slimme aanpak voor: Doe een "reality check".

Hij stelt twee soorten tests voor om te zien of je resultaten echt zijn of een illusie:

De "Placebo"-test (De Valse Vriend):
Stel je voor dat je onderzoekt of "rood eten" je slimmer maakt. Je voert een test uit en vindt een resultaat. Maar wat als je in plaats van "rood eten" een willekeurige, onzinnige variabele gebruikt, zoals "de kleur van de sokken van de leraar"? Als je statistische methode ook hier een "significant" resultaat vindt, is je methode kapot. Je methode ziet patronen waar geen zijn.
- In het paper: Ze vervangen de echte behandeling door een willekeurige. Als de methode dan nog steeds "ja" zegt, is de methoot onbetrouwbaar.
De "Doelgerichte" Simulatie (De Reconstructie):
Hierbij probeer je de echte wereld na te bouwen in de computer. Je neemt je echte data en zegt: "Laten we doen alsof de behandeling geen effect had." Vervolgens kijken we of de methode dan toch "significant" zegt. Als dat gebeurt, is je methoot te optimistisch.

4. De Praktische Tips: Wat moet je doen?

MacKinnon geeft een stappenplan voor iedereen die met groepen werkt:

Tel je groepen: Heb je minder dan 20-30 groepen? Wees dan extreem voorzichtig.
Kijk naar de verdeling: Heb je één gigantische groep en veel kleine? Dat is gevaarlijk.
Gebruik meerdere methoden: Laat niet alleen de standaardmethode draaien. Draai ook de "Jackknife" (CV3) en de "Wild Bootstrap".
Zoek overeenstemming: Als de standaardmethode zegt "ja", maar de veiligere methoden zeggen "nee", geloof dan de veiligere methoden. Als alle methoden (inclusief de placebo-tests) hetzelfde zeggen, kun je waarschijnlijk vertrouwen op je resultaat.

Conclusie

Het paper is een waarschuwing, maar ook een oplossing. Het zegt: "Vertrouw niet blindelings op de standaard knop in je statistische software, vooral niet als je met kleine groepen werkt."

Het is alsof je een brug bouwt. Als je maar een paar steunpilaren hebt (weinig clusters), moet je niet alleen vertrouwen op de standaard berekening. Je moet extra testen doen, de brug van verschillende kanten bekijken en simulaties draaien. Alleen als de brug in alle scenario's stevig blijft staan, kun je eroverheen lopen zonder te vallen.

Kort samengevat: Bij cluster-data is voorzichtigheid geboden. Gebruik geavanceerde methoden (zoals Wild Bootstraps of Jackknife) en test je resultaten met placebo's om zeker te weten dat je geen illusies ziet.

Each language version is independently generated for its own context, not a direct translation.

Titel: Wanneer kunnen we cluster-robuste inferentie vertrouwen?

Auteur: James G. MacKinnon (Queen's University & Aarhus Center for Econometrics)
Datum: April 2026

1. Het Probleem

In de econometrie en andere disciplines is het standaardpraktijk om bij cross-sectionele of paneldata "cluster-robuste standaardfouten" te gebruiken. Dit gebeurt wanneer observaties in disjuncte clusters vallen (bijv. landen, staten, scholen) en er correlatie binnen clusters wordt verondersteld, maar niet tussen clusters.

Hoewel asymptotische theorie aantoont dat inferentie betrouwbaar is wanneer het aantal clusters ( $G$ ) naar oneindig gaat, is dit in de praktijk vaak niet het geval. Veel studies werken met een beperkt aantal clusters. MacKinnon stelt dat er geen enkele methode bestaat die in alle gevallen betrouwbare inferentie (p-waarden en betrouwbaarheidsintervallen) oplevert. De uitdaging is om te bepalen welke inferentiemethode voor een specifiek model en dataset betrouwbaar is, gezien de variatie in prestaties afhankelijk van:

Het aantal clusters ( $G$ ).
De homogeniteit van de clusters (grootte, leverage, variatie in regressoren).
De aard van de heteroskedasticiteit en intra-cluster correlatie.

2. Methodologie en Bestaande Benaderingen

Het artikel bespreekt verschillende methoden voor het schatten van variantiematrices en het uitvoeren van hypothesetoetsen.

A. Variantiematrix-schatters (CRVE)

Er worden drie hoofdvariantiematriceschatters besproken voor lineaire regressie:

CV1: De meest gebruikte schatter (analoog aan HC1). Deze vervangt de ware scores door empirische scores. Deze neigt vaak naar onder-schatting van de variantie, vooral bij kleine $G$ .
CV2: Een schatter die residuals schaalt (analoog aan HC2). Deze is onbevooroordeeld onder specifieke voorwaarden, maar computationally duur bij grote clusters.
CV3 (Cluster-Jackknife): Gebaseerd op het wegnemen van één cluster per keer om parameters te herberekenen. Deze schatter neigt naar een conservatievere (grotere) variantie en presteert over het algemeen beter dan CV1 in eindige steekproeven.

B. Verdelingen voor Toetsing

Asymptotische Normaliteit: Vaak wordt de standaardnormale verdeling gebruikt, maar dit is onnauwkeurig bij kleine $G$ .
$t(G-1)$ : De conventionele benadering is het gebruik van de $t$ -verdeling met $G-1$ vrijheidsgraden. Dit is een benadering die beter werkt dan de normale verdeling, maar niet perfect is.
Aangepaste vrijheidsgraden: Methodes zoals die van Hansen (2025a,b) berekenen specifieke schaalparameters en vrijheidsgraden per coëfficiënt om de nauwkeurigheid te verbeteren.

C. Bootstrap-methoden

Pairs Cluster Bootstrap (PCB): Resamplet clusters. Werkt vaak slecht in eindige steekproeven omdat de steekproefgrootte en leverage per bootstrap-steekproef variëren.
Wild Cluster Bootstrap (WCB): Vermenigvuldigt de scores met willekeurige gewichten (vaak Rademacher-verdeling).
- WCR-C: Gebaseerd op beperkte scores (onder de nulhypothese).
- WCU-S en WCR-S (Score-varianten): Nieuwe varianten die de "leverage"-vervorming van OLS corrigeren door gebruik te maken van aangepaste scores (gebaseerd op de jackknife). Deze presteren vaak beter dan de klassieke versies.

3. Belangrijkste Bijdragen

MacKinnon presenteert een praktisch raamwerk om de betrouwbaarheid van inferentie te beoordelen, in plaats van blindelings op één methode te vertrouwen. De kernbijdragen zijn:

Diagnostische Maatstaven voor Heterogeniteit:
- Het introduceren van maatstaven zoals de effectieve aantal clusters ( $G^*$ ) en partiele leverage ( $L_{gj}$ ).
- Als de leverage van clusters sterk varieert of als het aantal behandelde clusters ( $G_1$ ) erg klein is, is inferentie vaak onbetrouwbaar, ongeacht de methode.
- Het testen op heteroskedasticiteit tussen behandelde en controlegroepen.
Het Bepalen van het Clustering-niveau:
- Het voorstellen van score-variance tests om te testen of een fijner clustering-niveau (bijv. school) of een ruwer niveau (bijv. schooldistrict) correct is.
- Discussie over tweeweg-clustering en de problemen die hierbij ontstaan (bijv. niet-positief-definiete variantiematrices).
Validatie via Simulatie:
- Gerichte Monte Carlo-experimenten: Het genereren van data op basis van de daadwerkelijke $X$ -matrix en gespecificeerde storingsverdelingen om de werkelijke afwijzingsfrequentie (rejection frequency) te schatten.
- Placebo-regressies: Het vervangen of toevoegen van een "placebo-regressor" (een kunstmatige variabele die geen effect zou moeten hebben) om te zien of de methode ten onrechte significante effecten vindt (over-rejectie).

4. Resultaten en Empirische Toepassingen

Het artikel illustreert de methoden aan de hand van twee empirische cases:

Case 1: Vrouwelijke rolmodellen in economie (Porter & Serra, 2020):
- Situatie: 12 klassen, slechts 4 behandelde klassen. Zeer klein aantal clusters.
- Resultaat: De standaard CV1-methode gaf een significante p-waarde (<0.05), maar diagnostische tests en simulaties toonden aan dat deze methode sterk over-rejecteerde (te kleine p-waarden).
- Conclusie: De resultaten waren marginaal significant bij gebruik van Jackknife (CV3) en Wild Bootstrap (WCR-S/WCU-S), maar de onzekerheid was groot door het kleine aantal clusters.
Case 2: Diversiteit in elite scholen in Delhi (Rao, 2019):
- Situatie: Clustering op school-niveau (17 clusters) versus school-klas-niveau (68 clusters).
- Resultaat: Score-variance tests suggereerden dat clustering op school-niveau correcter was, ondanks het lagere aantal clusters.
- Conclusie: Methoden zoals WCR-S en Hansen's aangepaste methode leverden consistente en betrouwbare resultaten, terwijl standaardmethoden en CV3 bij school-klas clustering onder-rejecteerden.

5. Significantie en Conclusies

MacKinnon concludeert dat er geen "one-size-fits-all" oplossing is voor cluster-robuste inferentie. De belangrijkste aanbevelingen zijn:

Geen blind vertrouwen: De standaard CV1 + $t(G-1)$ methode moet nooit blindelings worden gebruikt, tenzij $G$ zeer groot is en er weinig heterogeniteit is.
Gebruik van betere alternatieven: De CV3 (Jackknife) variantiematrix en de WCR-S / WCU-S Wild Bootstrap methoden presteren over het algemeen beter en zijn conservatiever.
Diagnostiek is cruciaal: Onderzoekers moeten het aantal clusters, het aantal behandelde clusters, en maatstaven voor leverage en heterogeniteit controleren.
Validatie: Wanneer verschillende methoden tot substantieel verschillende conclusies leiden, moeten gerichte Monte Carlo-experimenten of placebo-regressies worden uitgevoerd om te bepalen welke methode voor die specifieke dataset het meest betrouwbaar is.
Uiterste voorzichtigheid: Bij zeer kleine aantallen clusters (vooral als het aantal behandelde clusters klein is), kan het zijn dat er geen enkele methode bestaat die volledig betrouwbaar is.

Het artikel biedt een praktische leidraad voor econometristen om de robuustheid van hun resultaten te evalueren en te voorkomen dat ze foute conclusies trekken op basis van misleidende standaardfouten.