On topological and algebraic structures of categorical random variables

Each language version is independently generated for its own context, not a direct translation.

De Wiskunde van "Gelijksoortigheid": Een Reis door de Wereld van Categorieën

Stel je voor dat je een enorme verzameling losse puzzelstukken hebt. Sommige stukken zijn rood, sommige blauw, sommige hebben een boom erop, en andere een auto. In de statistiek noemen we dit categorische variabelen: dingen die je kunt groeperen, maar niet kunt optellen of aftrekken (je kunt niet zeggen dat "rood" plus "blauw" paars is in een wiskundige zin).

De auteurs van dit artikel, Inocencio Ortiz, Santiago Gómez-Guerrero en Christian Schaerer, hebben een manier bedacht om twee belangrijke vragen te beantwoorden:

Hoe vergelijkbaar zijn twee van deze puzzelstukken? (Topologie)
Hoe kunnen we ze samenvoegen tot één nieuw stuk? (Algebra)

Hier is hoe ze dat doen, vertaald naar alledaags taalgebruik.

1. De "Geheime Code" van Onzekerheid (Entropy & SU)

Om te begrijpen of twee dingen op elkaar lijken, kijken de auteurs naar onzekerheid.

Entropie is als een maat voor "chaos" of "verwarring". Als je een dobbelsteen gooit, is de onzekerheid groot (je weet niet of het 1 of 6 wordt). Als je een munt gooit die aan beide kanten kop is, is de onzekerheid nul.
Symmetrische Onzekerheid (SU) is hun nieuwe meetlat. Stel je voor dat je twee mensen hebt: Piet en Jan.
- Als je weet wat Piet doet, weet je precies wat Jan doet (ze zijn 100% op elkaar afgestemd), dan is hun "geheime code" perfect. Ze lijken heel veel op elkaar.
- Als Piet en Jan totaal niets met elkaar te maken hebben, is hun code willekeurig. Ze lijken niets op elkaar.

De auteurs gebruiken een formule om dit te meten. Het resultaat is een getal tussen 0 en 1:

0 betekent: "Geen enkele gelijkenis" (ze zijn totaal onafhankelijk).
1 betekent: "Perfecte gelijkenis" (als je het ene kent, ken je het andere).

De grote ontdekking: Ze bewijzen dat je dit getal kunt gebruiken als een afstand.

Denk aan een kaart van een stad. Als twee huizen dicht bij elkaar staan, is de afstand klein.
In hun wereld: als twee variabelen (bijvoorbeeld "Creativiteit" en "Aangeworven") sterk op elkaar lijken, is de "afstand" tussen hen klein. Als ze niets met elkaar te maken hebben, is de afstand groot.
Ze noemen dit een metrische ruimte. Het is alsof ze een meetlint hebben uitgevonden voor ideeën in plaats van voor meters.

2. Het Spel van de "Dubbelgangers" (Quotient Ruimte)

Er is een klein probleem: wat als twee variabelen precies hetzelfde gedrag hebben, maar andere namen hebben?

Voorbeeld: Variabele A heeft de waarden {1, 2, 3}. Variabele B heeft de waarden {A, B, C}. Als 1 altijd samen gaat met A, 2 met B, en 3 met C, dan zijn ze in feite identiek, alleen de labels zijn anders.

De auteurs zeggen: "Laten we deze dubbelgangers niet als twee verschillende mensen behandelen, maar als één persoon."
Ze maken een quotiëntruimte. Dit is als een club waar alleen de essentie telt, niet de naam. Als twee variabelen "ononderscheidbaar" zijn, worden ze in deze club als hetzelfde lid beschouwd. Hierdoor wordt de wiskunde veel schoner en eerlijker.

3. De "Huwelijkscontract" van Variabelen (Algebraïsche Structuur)

Nu de auteurs een manier hebben gevonden om afstand te meten, vragen ze zich af: "Kunnen we deze variabelen ook met elkaar 'trouwen'?"

Ze definiëren een nieuwe operatie, genaamd $*$ (sterretje).

Stel je hebt een variabele Inkomen (Laag, Middel, Hoog) en een variabele Huisbezit (Ja, Nee).
Als je ze met elkaar vermenigvuldigt ( $Inkomen * Huisbezit$ $I nk o m e n * H u i s b ez i t$ ), krijg je een nieuwe, gecombineerde variabele:
- (Laag, Ja), (Laag, Nee), (Middel, Ja), (Middel, Nee), etc.

Dit klinkt simpel, maar ze bewijzen iets heel moois:

Het is commutatief: De volgorde maakt niet uit. (Inkomen * Huis) is hetzelfde als (Huis * Inkomen).
Het is associatief: Je kunt ze in groepjes verdelen zonder dat het resultaat verandert.
Er is een "Neutraal Element": Er is een speciale variabele die niets toevoegt (als je hem "trouwt" met een andere variabele, verandert die andere variabele niet).

In wiskundetaal noemen ze dit een commutatieve monoid.
In het kort: Ze hebben een wiskundig systeem bedacht waar je categorische variabelen kunt "optellen" (samenvoegen) op een manier die logisch en voorspelbaar is.

4. De Perfecte Match: Wiskunde en Vorm (Compatibiliteit)

Het meest indrukwekkende deel van het artikel is het bewijs dat deze twee werelden (de afstand en de samenvoeging) met elkaar harmoniëren.

De metafoor: Stel je voor dat je een dansvloer hebt (de topologie/afstand) en een danspas (de algebra/samenvoeging).
De auteurs bewijzen dat als je twee paren dicht bij elkaar op de dansvloer staan (ze lijken veel op elkaar), en je laat ze dansen met een ander paar dat ook dicht bij elkaar staat, dan zullen de nieuwe dansparen ook weer dicht bij elkaar staan.
Je kunt de "danspas" niet plotseling veranderen als je de "afstand" een beetje aanpast. Alles loopt soepel.

Dit betekent dat je deze nieuwe meetlat (SU) en deze nieuwe manier van samenvoegen veilig kunt gebruiken in echte statistische modellen. Je kunt ze "optellen" zonder dat de afstandsmeting in de war raakt.

Waarom is dit belangrijk voor de "gewone" mens?

Voor statistici en data-analisten is dit een game-changer.

Vroeger: Je kon alleen goed meten of twee numerieke dingen (zoals lengte en gewicht) met elkaar correleerden. Categorieën (zoals "haar kleur" of "favoriete muziek") waren lastig om mee te rekenen.
Nu: Met deze methode kunnen we zeggen: "De variabele 'Muziekvoorkeur' staat heel dicht bij de variabele 'Koopgedrag'." We kunnen ze samenvoegen, vergelijken en in modellen gebruiken alsof het gewone getallen zijn.

Conclusie in één zin:
De auteurs hebben een wiskundig gereedschapskistje gebouwd waarmee we de "gevoelens" en "soorten" van data (in plaats van alleen de cijfers) kunnen meten, vergelijken en combineren, alsof het een soepel lopend machine is.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "On topological and algebraic structures of categorical random variables" in het Nederlands.

Titel: Topologische en algebraïsche structuren van categorische random variabelen

Auteurs: Inocencio Ortiz, Santiago Gómez-Guerrero en Christian E. Schaerer
Datum: Maart 2026

1. Probleemstelling

Categorische random variabelen (variabelen met waarden in een eindige, niet-numerieke set, zoals "kleur" of "geslacht") spelen een cruciale rol in data-analyse en machine learning. Hoewel er methoden bestaan om de correlatie tussen dergelijke variabelen te meten (zoals Symmetrische Onzekerheid of SU), ontbreekt er vaak een strikt wiskundig raamwerk om deze variabelen als een geïntegreerde structuur te behandelen.

Specifiek ontbreken er:

Een formele definitie van een metrische ruimte voor categorische variabelen die gebaseerd is op hun informatieve relatie.
Een algebraïsche structuur die het mogelijk maakt om deze variabelen op een consistente manier te combineren.
Een bewijs dat deze algebraïsche operatie verenigbaar is met de topologie die door de metriek wordt opgelegd (continuïteit).

Zonder deze structuren is het moeilijk om categorische variabelen op dezelfde rigoureuze manier te manipuleren en te interpreteren als dat al lang mogelijk is voor parametrische (numerieke) correlaties, zoals de Pearson-correlatie.

2. Methodologie

De auteurs combineren concepten uit de informatietheorie (Shannon-entropie, wederzijdse informatie) en de wiskundige topologie/algebra. De aanpak verloopt in de volgende stappen:

Definitie van de Basis:
- Gebruik van Symmetrische Onzekerheid (SU) als maat voor correlatie tussen twee categorische variabelen $X$ en $Y$ :
  $SU(X, Y) := 2 \left[ 1 - \frac{H(X, Y)}{H(X) + H(Y)} \right]$
  waarbij $H$ de Shannon-entropie is en $H(X, Y)$ de gezamenlijke entropie.
- SU varieert tussen 0 (onafhankelijk) en 1 (volledig gecorreleerd).
Quotiëntruimte en Equivalentierelatie:
- De auteurs definiëren een equivalentierelatie "ononderscheidbaarheid" ( $\sim$ ). Twee variabelen $X$ en $Y$ zijn ononderscheidbaar als er een bijectie bestaat tussen hun waardenverzamelingen zodanig dat ze bijna overal gelijk zijn.
- De ruimte van categorische variabelen wordt gedefinieerd als een quotiëntruimte $\mathcal{C}$ van equivalentieklassen $[X]$ . Dit lost het probleem op dat variabelen met verschillende labels maar dezelfde verdeling als identiek moeten worden beschouwd.
Topologische Structuur:
- Er wordt een afstandsmetriek $d$ gedefinieerd op $\mathcal{C}$ als het complement van de SU:
  $d(X, Y) = 1 - SU(X, Y)$
- Er wordt bewezen dat deze functie voldoet aan de eisen van een genormaliseerde afstandsmetriek (niet-negativiteit, symmetrie, driehoeksongelijkheid, en identiteit van ononderscheidbaren).
Algebraïsche Structuur:
- Er wordt een gezamenlijke operatie ( $*$ ) gedefinieerd: voor twee variabelen $A$ en $B$ is $C = A * B$ de variabele die de paren $(A(p), B(p))$ voor elke observatie $p$ oplevert.
- In termen van partities van de steekproefruimte komt dit overeen met de doorsnede van partities ( $C = A \cap B$ ).
Compatibiliteit:
- Er wordt onderzocht of de algebraïsche operatie $*$ continu is ten opzichte van de door $d$ geïnduceerde topologie.

3. Belangrijkste Bijdragen en Resultaten

A. Topologische Structuur (Hoofdstuk 3)

Stelling 3.4: De SU-maat is een genormaliseerde similarity metric (gelijkheidsmetriek) op de ruimte $\mathcal{C}$ .
Stelling 3.5: De transformatie $d(X, Y) = 1 - SU(X, Y)$ vormt een geldige genormaliseerde afstandsmetriek op de quotiëntruimte $\mathcal{C}$ .
Stelling 3.6: De door deze metriek geïnduceerde topologie is niet discreet. Dit is een cruciaal resultaat: het betekent dat er "nabije" categorische variabelen bestaan (bijvoorbeeld een variabele en een "ruisachtige" kopie daarvan), wat een continue ruimte suggereert in plaats van een verzameling geïsoleerde punten.

B. Algebraïsche Structuur (Hoofdstuk 4)

Stelling 4.5: De operatie $*$ $*$ (gezamenlijke variabele) maakt van de ruimte $\mathcal{C}$ $C$ een commutatieve monoid.
- De operatie is associatief en commutatief.
- Er bestaat een neutraal element $\Phi$ (een variabele met slechts één mogelijke uitkomst, de triviale partitie), zodanig dat $[A] * [\Phi] = [A]$ .

C. Compatibiliteit van Structuren (Hoofdstuk 4.2)

Stelling 4.6: De gezamenlijke operatie $*: \mathcal{C} \times \mathcal{C} \to \mathcal{C}$ $* : C \times C \to C$ is continu met betrekking tot de metriek $d = 1 - SU$ $d = 1 - S U$ .
- Dit wordt bewezen door te tonen dat de afstand tussen twee gecombineerde variabelen ( $d(X*Y, Z*W)$ ) begrensd wordt door de som van de afstanden van de individuele componenten ( $d(X,Z) + d(Y,W)$ ).
- Dit impliceert dat kleine veranderingen in de invoervariabelen slechts kleine veranderingen in de gecombineerde uitkomst veroorzaken.

4. Significatie en Toepassing

Deze paper biedt een fundamentele wiskundige formalisering voor categorische data-analyse:

Rigoureuze Basis voor Correlatie: SU wordt niet langer gezien als een heuristische maat, maar als een fundamentele component van een meetkundige ruimte. Dit stelt statistici in staat om categorische variabelen te behandelen met dezelfde wiskundige precisie als numerieke variabelen.
Operationalisering: De introductie van de commutatieve monoid-structuur betekent dat categorische variabelen op een wiskundig consistente manier kunnen worden "vermenigvuldigd" of gecombineerd. Dit is essentieel voor het bouwen van complexe modellen en het analyseren van interacties tussen kwalitatieve factoren.
Interpretatie en Intuïtie: Door de compatibiliteit van de algebra en de topologie, krijgen practitioners een intuïtief kader. Ze kunnen nu "rekenen" met entropische correlaties op een manier die vergelijkbaar is met hoe ze decennia lang hebben gewerkt met Pearson-correlaties, maar dan voor niet-parametrische, kwalitatieve data.
Toekomstperspectief: De auteurs wijzen erop dat deze formalisering de weg vrijmaakt voor uitbreiding naar multivariabele situaties (MSU - Multivariate Symmetric Uncertainty), waarbij onzekerheden wederzijds worden opgeheven bij het berekenen van correlaties.

Conclusie:
Het artikel transformeert het concept van "correlatie tussen categorische variabelen" van een losse statistische maat naar een volledig geïntegreerd wiskundig systeem met een topologische en algebraïsche structuur. Dit biedt een krachtig nieuw gereedschap voor datawetenschappers om kwalitatieve data te analyseren, te groeperen en te modelleren met wiskundige zekerheid.