Verifying the existence of maximum likelihood estimates for generalized linear models

Each language version is independently generated for its own context, not a direct translation.

De "Onzichtbare Muur" in Statistiek: Een Simpele Uitleg van het Onderzoek

Stel je voor dat je een detective bent die probeert een mysterie op te lossen door een puzzel te leggen. Je hebt veel stukjes (data) en je probeert een patroon te vinden dat de toekomst voorspelt. In de econometrie (de wiskunde van de economie) noemen we dit het opstellen van een model.

De auteurs van dit paper, Sergio, Paulo en Tom, hebben ontdekt dat er bij bepaalde soorten puzzels een heel vervelend probleem kan optreden: de puzzelstukjes passen niet, omdat er een onzichtbare muur is.

Hier is wat ze hebben gedaan, vertaald in alledaags taal:

1. Het Probleem: De "Muur" (Separatie)

Stel je voor dat je probeert te voorspellen of het morgen gaat regenen op basis van de luchtvochtigheid.

Normaal geval: Als het 50% vochtig is, regent het soms wel, soms niet. Je kunt een goede voorspelling maken.
Het probleem: Stel dat je merkt dat elke keer als de luchtvochtigheid 100% is, het regent, en elke keer als het 0% is, het droog blijft. Er is geen enkele uitzondering.

In de statistiek noemen we dit separatie. Het betekent dat je data zo perfect is gescheiden dat het model "in paniek" raakt. Het model probeert de voorspelling zo extreem mogelijk te maken (bijvoorbeeld: "Bij 100% vochtigheid is de kans op regen oneindig groot!"). Omdat "oneindig" geen getal is dat je op een computer kunt opslaan, bestaat het antwoord niet. De computer blijft maar rekenen en geeft uiteindelijk een foutmelding of een onzin-resultaat.

Dit probleem was al bekend bij simpele modellen (zoals ja/nee-vragen), maar de auteurs laten zien dat het ook gebeurt bij veel complexere modellen die economen gebruiken, zoals die voor handelsstromen of ziektekosten. En dat is gevaarlijk, want economen denken vaak dat hun resultaten kloppen, terwijl ze eigenlijk op een "muur" zijn gebotst.

2. De Oplossing: De "Scheiding" (Het Verwijderen van de Probleemstukjes)

Hoe los je dit op? De auteurs zeggen: "Haal de stukjes uit de puzzel die de muur veroorzaken."

Stel je voor dat je een klas hebt met 30 leerlingen. Je wilt de gemiddelde lengte berekenen. Maar één leerling is een reus van 3 meter en een andere is een dwerg van 10 cm. Als je ze erin laat zitten, wordt je gemiddelde raar.

De oude manier: Probeer de reus en de dwerg te "straffen" of hun cijfers aan te passen (dit heet "straffen" in de statistiek). Dit werkt vaak niet goed en is moeilijk te begrijpen.
De nieuwe manier (van de auteurs): Haal de reus en de dwerg gewoon uit de klas voor de berekening. Bereken het gemiddelde van de overige 28 leerlingen.

De auteurs bewijzen wiskundig dat dit perfect werkt.

Als je de "probleemleerlingen" (de geïsoleerde data) verwijdert, krijg je een eerlijk gemiddelde voor de rest.
De "reus" en de "dwerg" zijn niet verdwenen; je kunt ze later nog steeds voorspellen als "uitersten", maar ze verstoren de rest van de analyse niet meer.

Het mooie is: voor de meeste vragen die economen willen beantwoorden (bijvoorbeeld: "Heeft een vrijhandelsakkoord invloed op de handel?"), maakt het niet uit of je die extreme gevallen meetelt of niet. Het antwoord blijft hetzelfde.

3. De Uitdaging: De "Grote Muur" (Hoge Dimensies)

Nu wordt het lastig. In de moderne economie gebruiken we modellen met duizenden variabelen (bijvoorbeeld: vaste effecten voor elke stad, elk jaar, elk bedrijf). Het is alsof je een puzzel probeert te leggen met miljoenen stukjes.

Als je hier een muur hebt, is het bijna onmogelijk om met de oude methoden te vinden welke stukjes de muur veroorzaken. Het zou zijn alsof je in een donkere berg goud moet zoeken met een magneet, maar de magneet is te klein en de berg te groot.

De auteurs hebben een nieuwe, slimme magneet bedacht:

Ze gebruiken een slim algoritme (een computerprogramma) dat heel snel kan rekenen.
In plaats van te proberen de hele berg goud te doorzoeken, "schudt" het programma de puzzel op een slimme manier.
Het vindt in een fractie van een seconde precies welke stukjes (de geïsoleerde waarnemingen) de muur veroorzaken en haalt ze eruit.

Dit werkt zelfs als je miljoenen data-punten hebt, wat voorheen onmogelijk leek.

4. Waarom is dit belangrijk?

Vroeger dachten economen: "Als mijn computer een foutmelding geeft, moet ik een andere methode kiezen of mijn model aanpassen."
De auteurs zeggen nu: "Nee, je hoeft je model niet aan te passen. Je moet gewoon weten dat er een muur is, die specifieke stukjes verwijderen, en dan is je antwoord juist."

De kernboodschap in één zin:
Soms zijn je data zo perfect dat je model "breekt" door de extreme gevallen; de oplossing is niet om te worstelen met de breuk, maar om die extreme gevallen tijdelijk weg te halen, zodat je de rest van de wereld correct kunt begrijpen.

De auteurs hebben zelfs een gratis computerprogramma (een "tool") gemaakt waarmee onderzoekers dit probleem automatisch kunnen oplossen, zodat ze niet meer vastlopen in deze digitale muren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Verifying the existence of maximum likelihood estimates for generalized linear models" van Correia, Guimarães en Zylkin, in het Nederlands.

Titel: Verificatie van het bestaan van maximum likelihood-schattingen voor gegeneraliseerde lineaire modellen (GLM's)

Auteurs: Sergio Correia, Paulo Guimarães en Tom Zylkin.
Datum: 6 maart 2026 (gepubliceerd op arXiv).

1. Het Probleem: Non-existentie van ML-schattingen

Een fundamenteel, maar vaak onderbelicht probleem in niet-lineaire modellen is dat Maximum Likelihood (ML) schattingen niet gegarandeerd bestaan. Hoewel dit fenomeen, bekend als separatie (separation), goed gedocumenteerd is in de literatuur over binaire responsmodellen (zoals Logit en Probit), is het veel minder begrepen in bredere contexten, zoals tellingsmodellen (Poisson) en andere gegeneraliseerde lineaire modellen (GLM's).

De problemen worden versterkt in modellen met hoog-dimensionale parameters, zoals paneldata-modellen met meerdere niveaus van vaste effecten (fixed effects).

Het risico: Als de eerste-orde voorwaarden voor het maximaliseren van de likelihood-functie geen oplossing hebben, kunnen schattingen divergeren naar oneindig.
De onduidelijkheid: Bestaande software geeft vaak numerieke convergentie of produceert schijnbaar geldige, maar in feite onbetrouwbare schattingen zonder de gebruiker te waarschuwen dat het model "gescheiden" is.
Specifieke uitdaging: Voor Poisson-modellen en andere GLM's is het moeilijk om te verifiëren of separatie optreedt, vooral wanneer er veel vaste effecten zijn. Bestaande methoden (zoals het verwijderen van regressors) beïnvloeden de identificatie van andere parameters en zijn vaak willekeurig.

2. Methodologie en Theoretische Kader

De auteurs bouwen voort op eerder werk van Verbeek (1989), Aickin (1979) en anderen, en breiden dit uit naar een breed scala aan GLM's en Pseudo-Maximum Likelihood (PML) schatters.

A. Voorwaarden voor Bestaan (Propositie 1)

Voor een breed scala aan GLM's (waarbij de individuele likelihood-bijdrage een bovengrens heeft, zoals bij Poisson, Logit en Probit), bestaan er noodzakelijke en voldoende voorwaarden voor het bestaan van een ML-oplossing.

Een oplossing bestaat niet dan en slechts dan als er een lineaire combinatie van regressors $z_i = x_i \gamma^*$ bestaat die de data "scheidt".
Scheidingsvoorwaarden:
1. Voor observaties waar $0 < y_i < y $(interne waarden):$ z_i = 0$.
2. Voor observaties waar $y_i = y$ (bovengrens): $z_i \geq 0$ .
3. Voor observaties waar $y_i = 0$ : $z_i \leq 0$ .
Als zo'n vector $\gamma^*$ bestaat, gaat de likelihood-functie oneindig omhoog in de richting van $\gamma^*$ , waardoor geen eindige oplossing bestaat.

B. Uitzonderingen: Gamma en Inverse Gaussian PML (Propositie 2)

Voor schatters zoals Gamma PML en Inverse Gaussian PML (vaak gebruikt in handels- en gezondheidsdata met veel nullen) gelden strengere voorwaarden. Omdat hun likelihood-functies geen bovengrens hebben voor $y_i=0$ , kunnen ze zelfs bij "overlap" (waarbij de data niet perfect gescheiden lijkt) geen oplossing hebben. Dit maakt deze schatters kwetsbaarder voor non-existentie in toepassingen met veel nullen.

C. Oplossing: Het meten van gescheiden observaties

De auteurs introduceren het concept van een "compactified" model. Als we toestaan dat de lineaire predictor $x_i\beta$ waarden van $-\infty$ of $+\infty$ aanneemt, bestaat er altijd een oplossing.

Kerninzicht: Observaties die "gescheiden" zijn (waarvoor $x_i\gamma^* \neq 0$ ) dragen niets bij aan de score-functie voor de parameters die een eindige oplossing hebben.
Praktische consequentie: Het is theoretisch gerechtvaardigd om deze gescheiden observaties uit de steekproef te verwijderen. De resterende parameters (die niet betrokken zijn bij de separatie) kunnen dan consistent worden geschat op de niet-gescheiden steekproef. Dit is equivalent aan het schatten van het "limiet conditionele model".

3. Nieuwe Methode: Detectie in Hoog-Dimensionale Omgevingen

Een van de grootste bijdragen van het artikel is een nieuw algoritme om separatie te detecteren in modellen met veel vaste effecten, waar traditionele lineaire programmering (Linear Programming - LP) te rekenintensief is.

Het probleem met LP: Traditionele methoden vereisen het oplossen van een LP-probleem met $N$ constraints (observaties) en $M$ variabelen (regressors). Bij hoge dimensies (bijv. duizenden vaste effecten) is dit onuitvoerbaar.
De "Iterative Rectifier" (IR) Algoritme:
De auteurs ontwikkelen een efficiënt algoritme dat gebaseerd is op gewogen kleinste kwadraten (Weighted Least Squares) in plaats van LP.
1. Definieer een kunstmatige afhankelijke variabele $u_i$ : $u_i = -1$ als $y_i=0$ , en $u_i=0$ als $y_i > 0$ .
2. Geef gewichten $\omega_i$ : $1 $voor$ y_i=0 $en een zeer groot getal$ K $voor$ y_i > 0$.
3. Voer een iteratieve regressie uit waarbij $u_i$ wordt geregresseerd op $X$ met deze gewichten.
4. Update $u_i$ in elke iteratie naar $\min(\hat{u}_i, 0)$ voor de $y_i=0$ observaties.
5. Convergentie: Als het algoritme convergeert en alle voorspelde waarden $\hat{u}_i$ voor $y_i=0$ negatief zijn, zijn deze observaties gescheiden. Als $\hat{u}_i = 0$ , zijn ze niet gescheiden.
Efficiëntie: Dankzij recente innovaties (Correia, 2017) kunnen hoog-dimensionale gewogen regressies in bijna lineaire tijd worden opgelost. Het algoritme is schaalbaar en werkt zelfs met miljoenen observaties en duizenden vaste effecten.

4. Empirisch Voorbeeld

De auteurs illustreren hun methode met data uit Baier et al. (2019) over vrijhandelsakkoorden (FTA's).

Situatie: Een Poisson PML-model met hoge dimensie (vaste effecten voor land-paren, exporteur-tijd, importeur-tijd).
Probleem: Voor het paar IJsland-Roemenië waren er geen exporten vóór het FTA (1993). Dit creëert een perfecte separatie voor de FTA-coëfficiënt van dit paar.
Resultaten:
- Zonder controle geeft de software een extreem hoge, maar numeriek illusoire schatting voor de IJsland-Roemenië coëfficiënt.
- De Iterative Rectifier methode identificeert correct de 7 gescheiden observaties en verwijdert deze.
- Na verwijdering zijn de schattingen voor alle andere parameters (inclusief standaardfouten) identiek aan die van het volledige model, maar nu geldig.
- Vergelijking met bestaande methoden (zoals de standaard ppml in Stata) toont aan dat deze vaak falen in complexe scenario's met meerdere vaste effecten of onjuiste observaties verwijderen.

5. Belangrijkste Bijdragen en Resultaten

Verduidelijking van Bestaansvoorwaarden: De auteurs tonen aan dat separatie een breed probleem is voor GLM's, niet alleen voor binaire modellen. Ze onderscheiden tussen modellen met een eindige likelihood-bovengrens (Poisson, Logit) en die zonder (Gamma PML), waarbij laatstgenoemden strengere eisen hebben.
Consistentie bij Separatie: Zelfs als sommige parameters oneindig worden, kunnen andere lineaire parameters (die niet betrokken zijn bij de separatie) consistent worden geschat door de gescheiden observaties te verwijderen. Dit biedt een theoretische basis voor het "weglaten" van data.
Scalable Detectie: De introductie van het Iterative Rectifier (IR) algoritme maakt het mogelijk om separatie te detecteren in modellen met duizenden vaste effecten, wat met traditionele LP-methoden onmogelijk was.
Praktische Implementatie: De auteurs hebben een Stata-commando (ppmlhdfe met optie sep(ir)) ontwikkeld dat deze methode implementeert, waardoor onderzoekers direct kunnen controleren op separatie.

6. Significatie en Conclusie

Dit artikel is van cruciaal belang voor de toegepaste econometrie, vooral in gebieden zoals internationale handel (gravity modellen), gezondheidseconomie en innovatiestudies waar tellingsdata en vaste effecten standaard zijn.

Voor onderzoekers: Het biedt een duidelijke handleiding om te verifiëren of ML-schattingen bestaan en wat te doen als ze dat niet doen. Het weerlegt de mythe dat je bij separatie simpelweg een regressor moet verwijderen; in plaats daarvan moeten de observaties die de separatie veroorzaken worden verwijderd.
Voor softwareontwikkeling: Het benadrukt de noodzaak van software die niet alleen convergeert, maar ook de existentie van de oplossing garandeert en de gebruiker informeert over gescheiden data.
Toekomst: De methode opent de deur voor robuustere schattingen in complexe, hoog-dimensionale niet-lineaire modellen, waarbij de risico's van numerieke artefacten en verkeerde inferentie worden geminimaliseerd.

Kortom, het paper lost een langdurig theoretisch en praktisch probleem op door een brug te slaan tussen geavanceerde statistische theorie en computerefficiënte implementatie voor moderne economische data.