Regularization in Paired Comparison Models via Pseudo-Games… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Mark E. Glickman

Gepubliceerd 2026-06-03✓ Author reviewed ⓘ

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Mark E. Glickman

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een groep vrienden probeert te rangschikken op basis van wie de beste is in een videogame. Je hebt een lijst van wie van wie heeft gewonnen.

In een perfecte wereld speelt iedereen een gelijk aantal keer tegen iedereen. Maar in de werkelijkheid speelt de één veel en de ander weinig, en soms wint een echt goede speler nooit van een specifieke tegenstander in de kleine steekproef van wedstrijden die je hebt bekeken.

Het Probleem: De "Perfecte" Score-valstrik
Als Speler A vijf keer achter elkaar van Speler B wint, zal een standaard computerberekening (een zogenaamde "maximum likelihood") concluderen dat Speler A oneindig veel beter is dan Speler B. Het berekent dat Speler A een kans heeft van 100% om voor altijd te winnen.

Het Probleem: Dit is wiskundig gezien "correct" voor die vijf wedstrijden, maar het is een verschrikkelijke voorspelling voor de toekomst. We weten dat Speler B de volgende keer misschien wel wint. De wiskunde loopt vast omdat het een kleine steekproef behandelt als de absolute waarheid, wat leidt tot "oneindige" scores die geen zin maken.

De Oplossing: "Ghost" Wedstrijden Toevoegen
De auteur, Mark Glickman, stelt een slimme truc voor om dit op te lossen zonder complexe wiskundige straffen te gebruiken die moeilijk uit te leggen zijn. In plaats van de formule te veranderen, stelt hij voor om nepdata toe te voegen aan de mix. Hij noemt dit "Regularisatie via Pseudo-Observaties."

Denk er zo over na: Voordat je zelfs maar naar de echte wedstrijdresultaten kijkt, vertel je de computer: "Laten we doen alsof iedereen een paar extra wedstrijden heeft gespeeld tegen een 'Ghost' tegenstander, of tegen elkaar op een zeer gebalanceerde manier."

De paper stelt twee specifieke methoden voor:

1. De "Fractional Tie" Methode (Pseudo-wedstrijden)

Stel je voor dat elke speler, voordat het echte seizoen begint, een piepkleine, onzichtbare wedstrijd speelde waarin ze gelijk speelden.

Hoe het werkt: Je voegt een klein beetje "krediet" toe voor een winst en een klein beetje "krediet" voor een verlies aan elke enkele confrontatie in je gegevens.
De Metafoor: Het is alsof je tegen de computer zegt: "Hoewel Speler A vijf keer van Speler B heeft gewonnen, laten we doen alsof ze ook een paar wedstrijden hebben gespeeld waarbij ze het midden hebben gevonden."
Het Resultaat: Dit voorkomt dat de computer zegt: "Speler A is oneindig veel beter." Het brengt de scores dichter bij elkaar, waardoor de voorspelling realistischer wordt. Het is alsof je een beetje "twijfel" aan de data toevoegt om de extremen af te vlakken.

2. De "Ghost Player" Methode (Fantoomspelers)

Stel je voor dat er een mysterieuze, onzichtbare speler in de competitie is (laten we hem "Mr. Zero" noemen) die precies gemiddeld is. Hij wordt nooit moe, heeft nooit geluk en zijn vaardigheidsniveau is vastgesteld op nul.

Hoe het werkt: Je doet alsof elke echte speler een aantal wedstrijden tegen Mr. Zero heeft gespeeld. Je vertelt de computer dat elke speler de helft van de tijd heeft gewonnen en de andere helft heeft verloren tegen Mr of Zero.
De Metafoor: Het is als het verankeren van een boot. Als de boot (de score van de speler) te ver probeert af te drijven (te hoog of te laag te worden), trekt het anker (Mr. Zero) hem terug naar het midden.
Het Resultaat: Dit houdt ieders score gegrond. Zelfs als een speler 10 wedstrijden op rij wint tegen zwakke tegenstanders, zorgt het feit dat ze de helft van hun wedstrijden tegen de gemiddelde Ghost Player "verloren" hebben, ervoor dat hun score niet naar oneindig schiet.

Waarom dit Cool is

De paper laat zien dat deze twee "nepdata"-trucs precies hetzelfde werk doen als een zeer populaire, complexe wiskundige techniek genaamd "Ridge Regularization" (die meestal een eng uitziende strafformule bevat).

Het Voordeel: In plaats van te zeggen: "We hebben een straf van 0,5 toegepast op de wiskunde," kun je zeggen: "We hebben 40 nepwedstrijden tegen een gemiddelde tegenstander toegevoegd."
De Vertaling: Dit maakt de wiskunde veel makkelijker te begrijpen voor gewone mensen (zoals sportanalisten of bedrijfsmanagers). Ze kunnen het systeem afstemmen door eenvoudige vragen te stellen: "Hoeveel nepwedstrijden moeten we toevoegen?" of "Hoeveel vertrouwen moeten we schenken aan de gemiddelde speler?"

Het Honkbal Voorbeeld

De auteur testte dit op het MLB-seizoen van 2025.

Zonder de fix: Omdat het wedstrijdschema onbalans was, kwamen de geschatte vaardigheden van de beste en slechtste teams uit als te optimistisch en overdreven; de kloof tussen hen leek veel groter dan in werkelijkheid, hoewel de waarden niet letterlijk oneindig waren (aangezien elk team zowel winst als verlies had).
Met de fix: De computer gaf de teams meer redelijke scores. De computer wist nog steeds dat de beste teams goed waren en de slechtste slecht, maar overdreef het gat niet. De "Ghost Player"-methode werkte zo goed dat het resultaten produceerde die bijna identiek waren aan de complexe "Ridge"-wiskunde, maar het was veel gemakkelijker uit te leggen.

Samenvatting

De paper betoogt dat wanneer je dingen rangschikt op basis van winst en verlies, je de waanzinnige, oneindige scores kunt vermijden door te doen alsof iedereen een paar extra, gebalanceerde wedstrijden heeft gespeeld.

Methode A: Doe also het iedereen een kleine gelijkspel tegen iedereen heeft gespeeld.
Methode B: Doe also het iedereen een aantal wedstrijden tegen een "gemiddelde" ghost heeft gespeeld.

Beide methoden houden de wiskunde simpel, de voorspellingen realistisch en de resultaten gemakkelijk uit te leggen aan iedereen die alleen maar wil weten wie er echt de beste is.

Technische Samenvatting: Regularisatie in Paarsgewijze Vergelijkingsmodellen via Pseudo-wedstrijden en Fantoomspelers

Probleemstelling
Paarsgewijze vergelijkingsmodellen, zoals de Bradley-Terry en de Thurstone-Mosteller modellen, zijn standaardinstrumenten voor het schatten van latente vermogens of voorkeuren op basis van binaire uitkomsten. Echter, gewone maximum likelihood-schatting (MLE) in deze modellen kampt met aanzienlijke instabiliteit wanneer de vergelijkingsgraaf gedisconnecteerd of bijna gescheiden is. In dergelijke gevallen—veelvoorkomend in sporten met incomplete schema's, schaarse voorkeursonderzoeken of online rankingsystemen met nieuwe nieuwkomers—kan de likelihood alleen op de rand worden gemaximaliseerd, wat resulteert in oneindige vermogensschattingen (bijv. $+\infty$ en $-\infty$ ). Hoewel ridge-regularisatie dit aanpakt door parameters naar een gemeenschappelijk centrum te krimpen, vertroebelt dit de intuïtieve likelihood-interpretatie die deze modellen voor praktijkgebruikers juist zo aantrekkelijk maakt. Bovendien vereisen ridge-straffen expliciete lineaire restricties om locatie-niet-identificeerbaarheid op te lossen.

Methodologie
Het artikel stelt twee data-augmentatieperspectieven op regularisatie voor die de vertrouwde likelihoodvorm behouden en tegelijkertijd eindige, gekrompen schattingen opleveren. Beide methoden kunnen worden geïmplementeeerd via standaard software voor binomiale regressie (bijv. glm in R).

Pseudo-wedstrijd-regularisatie:
Deze benadering voegt fractionele "pseudo-wedstrijden" toe aan de geobserveerde data. Voor elke ongeordende paar van concurrenten $(i, j)$ voegt de methode $\delta$ fractionele overwinningen en $\delta$ fractionele nederlagen toe aan beide spelers.
- Mechanisme: De uitgebreide log-likelihood bevat een strafterm proportioneel aan $\sum \log\{p_{ij}(1-p_{ij})\}$ . Deze term wordt gemaximaliseerd wanneer $p_{ij} = 1/2$ (gelijke vermogens), waardoor de verschillen in vermogen naar nul worden gekrompen.
- Eigenschappen: Het werkt op paarsgewijze vermogensverschillen. Het lost locatie-niet-identificeerbaarheid niet op; een lineaire restrictie (bijv. $\sum \theta_j = 0$ ) blijft noodzakelijk.
- Verbinding met Ridge: Onder de Bradley-Terry logit-link laat een Taylor-expansie nabij nul zien dat deze straf lokaal gedraagt als een ridge-straf met coëfficiënt $\lambda \approx \delta J / 4$ .
Fantoomspeler-regularisatie:
Deze benadering introduceert een kunstmatige "fantoom"-concurrent (geïndexeerd als 0) met een vaste, bekende sterkte $\theta_0 = 0$ . Elke echte concurrent krijgt een gewogen pseudo-winst en een gewogen pseudo-verlies tegen deze fantoomspeler, met gewicht $\rho$ .
- Mechanisme: De uitgebreide log-likelihood voegt een term $\rho \sum [\log F(\theta_j) + \log\{1 - F(\theta_j)\}]$ toe. Deze term wordt gemaximaliseerd bij $\theta_j = 0$ , waardoor individuele vermogens naar de sterkte van de fantoomspeler worden gekrompen.
- Eigenschappen: Het werkt direct op individuele parameters $\theta_j$ in plaats van alleen op verschillen. Cruciaal is dat de fantoomspeler de locatie-niet-identificeerbaarheid oplost zonder dat er een expliciete som-nul-restrictie nodig is, aangezien de fantoomspeler de schaal verankert.
- Verbinding met Ridge: Voor de Bradley-Terry is dit lokaal equivalent aan ridge-regularisatie met $\lambda \approx \rho / 4$ . Echter, in tegenstelling tot de kwadratische ridge-straf, heeft de fantoomspeler-straf ongeveer lineaire staarten voor grote $|\theta_j|$ .

Tuning en Inferentie
De tuningparameters $\delta$ en $\rho$ kunnen worden geselecteerd via expert-elicitatie of cross-validatie.

Elicitatie: $\delta$ kan worden gekalibreerd door te vragen welke waarschijnlijkheid $q$ een analist toekent aan een toekomstige overwinning gegeven een enkele geobserveerde overwinning (zonder verliezen); $\delta = (1-q)/(2q-1)$ . $\rho$ kan worden geïnterpreteerd als het aantal gewogen pseudo-overwinningen/nederlagen tegen een referentiemonent.
Cross-validatie: $K$ -fold cross-validatie maximaliseert de uitgespaarde log-likelihood. Het artikel merkt op dat standaardfouten van de uiteindelijke fit behandeld moeten worden als conditioneel op de geselecteerde tuningparameter; bootstrappen van de volledige procedure wordt aanbevolen voor een correcte kwantificering van de onzekerheid.
Bayesiaanse Interpretatie: Het artikel merkt op dat fantoomspeler-regularisatie overeenkomt met een Maximum A Posteriori (MAP) schatter onder onafhankelijke shrinkages-priors met dichtheden proportioneel aan $[F(\theta_j)(1-F(\theta_j))]^\rho$ .

Resultaten: Toepassing op het 2025 Major League Baseball Seizoen
De methoden werden toegepast op het 2025 MLB reguliere seizoen (30 teams, 2.430 wedstrijden). Hoewel de datagraaf verbonden is (waardoor gewone MLE mogelijk is), was het schema ongebalanceerd, wat potentieel voor extreme schattingen creëerde.

Vergelijking: De auteurs vergeleken gewone Bradley-Terry, ridge-gepenaliseerde, pseudo-wedstrijd en fantoomspeler-modellen.
Bevindingen:
- Gewone schattingen vertoonden de breedste spreiding (bijv. Colorado Rockies op $-0,979$).
- Geregulariseerde methoden krompen deze extremen aanzienlijk (bijv. de Rockies-schattingen varieerden van $-0,580$ tot $-0,643$).
- Fantoomspeler-schattingen waren bijzonder dicht bij de ridge-gepenaliseerde sterkte-schattingen, met een reductie in de top-tot-bodem spreiding van ongeveer een derde tot twee vijfde.
- De fantoomspeler-methode reproduceerde succesvol de ridge-gepenaliseerde sterkte-schattingen terwijl de intuïtieve uitgebreide-data representatie behouden bleef.

Belangrijkste Bijdragen en Betekenis
De primaire bijdrage van het artikel is het aantonen dat eenvoudige augmented-data constructies (pseudo-wedstrijden en fantoomspelers) interpreteerbare regularisatie-straffen opleveren voor paarsgewijze vergelijkingsmodellen.

Interpreteerbaarheid: In tegen tegenstelling tot abstracte ridge-straffen, stellen deze methoden praktijkgebruikers in staat om regularisatie te bespreken in termen van "fractionele wedstrijden" of "vergelijkingen met een referentiemonent".
Implementatie: De methoden maken gebruik van standaard generalized linear model (GLM) software, waardoor ze toegankelijk zijn voor toegepaste analisten zonder aangepaste optimalisatiecode.
Identificeerbaarheid: De fantoomspeler-constructie biedt een duidelijk voordeel door de locatie-niet-identificeerbaarheid natuurlijk op te lossen, waardoor de noodzaak voor expliciete lineaire restricties vervalt.
Brug: Het werk vormt een brug tussen gepenaliseerde optimalisatie en likelihood-gebaseerde modellering, waarbij regularisatie wordt geframed als de toevoeging van zorgvuldig gecontroleerde, interpreteerbare informatie in plaats van enkel een wiskundige straf.

Het artikel concludeert dat hoewel deze methoden beperkingen hebben (bijv. potentiële instabiliteit van cross-validatie bij zeer ijle data), ze robuuste, intuïtieve alternatieven bieden voor standaard ridge-regularisatie, vooral wanneer de structuur van de vergelijkingsgraaf specifieke soorten instabiliteit suggereert.

Regularization in Paired Comparison Models via Pseudo-Games and Phantom Players

1. De "Fractional Tie" Methode (Pseudo-wedstrijden)

2. De "Ghost Player" Methode (Fantoomspelers)

Waarom dit Cool is

Het Honkbal Voorbeeld

Samenvatting

Meer zoals dit