Correlation of divergency: c-delta. Being different in a similar way or not

Each language version is independently generated for its own context, not a direct translation.

De "Gelijkvormigheid van Afwijking": Een Simpele Uitleg van het Nieuwe Statistische Instrument

Stel je voor dat je twee groepen mensen hebt: groep A (bijvoorbeeld een klas leerlingen) en groep B (een team van kunstenaars). Je wilt weten of ze op een vergelijkbare manier "anders" zijn.

Meestal kijken statistici naar of de mensen in groep A en B op elkaar lijken. Bijvoorbeeld: "Is de slimste leerling ook de beste schilder?" Dat is wat de bekende Pearson-correlatie doet. Maar Johan Hoorn, de schrijver van dit nieuwe artikel, zegt: "Wacht even, dat is niet het enige dat interessant is."

Hij introduceert een nieuw meetinstrument genaamd $c\delta$ (uitgesproken als c-delta). Laten we uitleggen wat dit doet, zonder ingewikkelde wiskunde.

1. Het Concept: "Anders zijn op dezelfde manier"

Stel je voor dat je twee orkesten hebt.

Orkest A speelt een symfonie. De violist in het midden speelt heel zacht, de trompetter links is heel luid, en de drummer rechts is weer zacht. Ze hebben allemaal een heel eigen, uniek volume.
Orkest B speelt een andere symfonie. Ook hier is de trompetter luid, de violist zacht, en de drummer zacht.

De muziek (de specifieke noten) is totaal anders. Maar de patronen van afwijking zijn hetzelfde! In beide orkesten is de trompetter de "uitbijter" die het hardst speelt, en de violist de "rustige" die het zachtst speelt.

De oude statistieken (zoals Pearson) zouden zeggen: "Deze orkesten lijken niet op elkaar, want de noten zijn anders."
De nieuwe $c\delta$ zegt: "Wauw! Deze orkesten zijn op een heel specifieke manier gelijk: ze hebben dezelfde structuur van variatie. Ze zijn 'anders' op precies dezelfde manier."

2. Hoe werkt het? (De Receptuur)

In plaats van te kijken naar de waarde van één getal, kijkt $c\delta$ naar de afstand tot de rest.

De "Afstandsrekening": Voor elk persoon in groep A, meet je hoe ver ze weg staan van iedereen anders in die groep.
- Voorbeeld: Als Jan in het midden zit en iedereen anders is ver weg, is zijn "afstands-score" hoog. Als Jan precies in het midden van een dichte kluwen staat, is zijn score laag.
De Vergelijking: Je doet dit voor groep A én groep B.
De Match: Je kijkt nu of de mensen met een hoge "afstands-score" in groep A, ook een hoge "afstands-score" hebben in groep B.
- Als de "uitbijters" in groep A ook de "uitbijters" zijn in groep B, dan is de $c\delta$ -score hoog.
- Als de uitbijters in groep A totaal niet overeenkomen met die in groep B, is de score laag.

3. Waarom is dit handig? (Voorbeelden uit het dagelijks leven)

Dit instrument is nuttig in situaties waar we niet kijken naar wat er gebeurt, maar naar hoe het varieert.

Kwaliteitscontrole in een fabriek: Twee machines maken schroeven. Machine A maakt schroeven die soms heel groot en soms heel klein zijn, maar de patronen zijn willekeurig. Machine B maakt ook variabele schroeven, maar de "grote" en "kleine" schroeven komen op precies dezelfde momenten in de productiecyclus voor. $c\delta$ kan zien dat deze machines een identiek variatiepatroon hebben, zelfs als de schroeven zelf niet gelijk zijn.
Genetica: Twee soorten dieren hebben verschillende genen. Maar als je kijkt naar hoe de genen variëren binnen een familie, zien ze misschien precies hetzelfde patroon van "wie lijkt op wie". Dat zegt iets over hun evolutie.
Quantumfysica (de moeilijke wereld): In de quantumwereld zijn dingen vaak willekeurig. Wetenschappers willen weten of twee quantum-systemen "op dezelfde manier onzeker" zijn. $c\delta$ kan helpen om te zien of de spreiding van meetresultaten in systeem A net zo "chaotisch" is als in systeem B.

4. De Valkuilen (Waar moet je op letten?)

Zoals elk nieuw instrument heeft $c\delta$ een paar haken en ogen:

Geen minnen: De score kan nooit negatief zijn. Het kan niet zeggen "ze zijn precies het tegenovergestelde". Als groep A en groep B een spiegelbeeld zijn van elkaar, ziet $c\delta$ ze nog steeds als "gelijk" in hun variatie. (De auteur stelt voor om dit op te lossen door een extra stap toe te voegen).
Gevoelig voor extreme waarden: Als er één heel rare, extreme waarde is (een "uitbijter"), kan dit de hele score verstoren. Het is alsof één heel luid schreeuwende persoon in een stilte-zaal de hele "ruis" van de kamer bepaalt. De auteur suggereert om dit op te lossen door extreme waarden te "wippen" (winsoriseren) of een alternatieve versie te gebruiken die minder gevoelig is.
Geen universele schaal: Een score van "5" betekent niet altijd hetzelfde in elke studie. Het is zoals een thermometer die niet in graden Celsius werkt, maar in "warmte-eenheden" die per meting verschillen. Je moet de score altijd vergelijken met een maximale score binnen die specifieke dataset.

5. Conclusie: Wat levert het op?

Kort samengevat: $c\delta$ is een spiegel voor variatie.

Terwijl traditionele statistiek vraagt: "Hoe sterk hangen deze twee dingen aan elkaar?", vraagt $c\delta$ : "Hun variatiepatronen lijken op elkaar?"

Het is een nieuwe manier om te kijken naar data. Het helpt ons te zien of twee groepen, hoewel ze totaal verschillende dingen doen of produceren, toch een dezelfde interne structuur van onregelmatigheid hebben. Of zoals de auteur het mooi verwoordt: "Zijn ze op een vergelijkbare manier anders?"

Dit is een stap voorwaarts in de statistiek, vooral voor complexe gebieden zoals quantumfysica, genetica en kunstmatige intelligentie, waar de "vorm" van de data net zo belangrijk is als de data zelf.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Correlation of divergency: cδ. Being different in a similar way or not" van J.F. Hoorn (2026), geschreven in het Nederlands.

Titel: Correlatie van Divergentie: $c\delta$

Auteur: Johan F. Hoorn
Publicatie: arXiv:stat.ME, 2510.16717v2 (2026)

1. Het Probleem

Bestaande statistische methoden voor het vergelijken van datasets hebben beperkingen wanneer het gaat om de analyse van interne variabiliteitsstructuren:

Pearson en Spearman correlatie: Deze meten de directe associatie tussen gepaarde waarden (bijv. stijgt X, stijgt Y?). Ze zeggen niets over hoe de waarden binnen een groep van elkaar verschillen.
Distributie-vergelijkende maten (Energy Distance, MMD, KL-divergentie): Deze vergelijken de vorm of overlap van twee volledige verdelingen, maar niet noodzakelijk of het patroon van afwijkingen binnen groep A overeenkomt met het patroon binnen groep B.
Kwantumfysica en andere complexe velden: Er is behoefte aan een maatstaf om te bepalen of twee systemen (bijv. twee kwantumsystemen of twee biologische populaties) op een vergelijkbare manier "verspreid" of "divergent" zijn, ongeacht de absolute schaal van de waarden.

Er ontbreekt dus een statistische maatstaf die specifiek kwantificeert of twee groepen waarden op een vergelijkbare manier verschillend zijn (d.w.z. of hun interne divergentiepatronen gelijkend zijn).

2. Methodologie: De $c\delta$ Coëfficiënt

De auteur introduceert de Correlation of Divergency ( $c\delta$ ), een maatstaf die de gelijkenis tussen de interne divergentiepatronen van twee groepen waarden ( $X$ en $Y$ ) meet.

Berekeningsstappen:

Interne Divergentie per Punt: Voor elk datapunt $x_i$ $x_{i}$ in groep $X$ $X$ wordt de afwijking berekend ten opzichte van alle andere punten $x_j$ $x_{j}$ in dezelfde groep.
- De standaardvariant gebruikt de kwadratische verschillen (vergelijkbaar met variantie):
  $D_{x,i} = \sqrt{\frac{1}{n-1} \sum_{j \neq i} (x_i - x_j)^2}$
- Er is ook een absolute variant (L1-norm, vergelijkbaar met Gini-middellijn) voorgesteld voor robuustheid tegen uitbijters:
  $D_{x,i} = \frac{1}{n-1} \sum_{j \neq i} |x_i - x_j|$
Kruisproduct (Signaal): De divergentiewaarden van corresponderende punten in $X$ en $Y$ worden vermenigvuldigd en opgeteld:
$\text{Numerator} = \sum_{i=1}^{n} (D_{x,i} \cdot D_{y,i})$
Normalisatie (Ruis): De teller wordt gedeeld door het product van de gemiddelde interne divergenties van beide groepen om schaal-invariantie te garanderen:
$c\delta = \frac{\sum_{i=1}^{n} (D_{x,i} \cdot D_{y,i})}{\bar{D}_x \cdot \bar{D}_y}$
Waar $\bar{D}_x$ en $\bar{D}_y$ de gemiddelde wortel-middelkwaadraten van de divergenties zijn.

Uitbreidingen:

Complexe getallen: Toepasbaar door $(x_i - x_j)^2$ te vervangen door $|z_i - z_j|^2$ .
Kwantumtoestanden: Conceptueel toepasbaar op dichtheidsmatrices door gebruik te maken van kwantumafstandsmaten (zoals Hilbert-Schmidt afstand), hoewel dit nog speculatief is.

3. Belangrijkste Bijdragen

Nieuw Statistisch Concept: $c\delta$ vult een gat in de methodologie door niet de associatie tussen waarden te meten, maar de gelijkenis van de spreidingsstructuur. Een hoge $c\delta$ betekent: "Wanneer een punt in groep X ver weg staat van de rest, staat het corresponderende punt in groep Y ook ver weg van de rest."
Schaal-invariantie: Door normalisatie is de maatstaf onafhankelijk van de eenheid of schaal van de data.
Verschillende Varianten: De auteur biedt zowel een kwadratische variant (gevoelig voor grote afwijkingen) als een absolute variant (robuuster, gebaseerd op Gini-middellijn) aan.
Inferentie Framework: Omdat er geen gesloten vorm bestaat voor de null-verdeling, worden permutatietests en bootstrap-methoden (BCa) voorgesteld voor het bepalen van p-waarden en betrouwbaarheidsintervallen.

4. Resultaten en Eigenschappen

Waardebereik: $c\delta$ $cδ$ is per constructie niet-negatief ( $c\delta \geq 0$ $cδ \geq 0$ ). Het theoretische bereik is $[0, \infty)$ $[0, \infty)$ .
- Nabij 0: Geen relatie in divergentiepatronen.
- Hoog: Sterke gelijkenis in divergentiepatronen.
- Onduidelijkheid: $c\delta$ kan geen negatieve waarden aannemen en onderscheidt dus niet tussen een gelijkend en een perfect omgekeerd divergentiepatroon (bijv. X stijgt terwijl Y daalt, maar beide spreiden zich even sterk uit).
Oplossing voor richting: Om dit op te lossen, wordt voorgesteld om een tweede component toe te voegen: de Pearson- of Spearman-correlatie tussen de divergentievectoren ( $D_x$ en $D_y$ ) om de richting (gelijk of omgekeerd) te bepalen.
Normalisatie: Omdat de bovengrens niet universeel is, stelt de auteur voor om $c\delta$ te normaliseren ten opzichte van de maximale zelfgelijkheid ( $c\delta_{max}$ ) van de dataset, waardoor een schaal van 0 tot 1 ontstaat voor interpretatie binnen een specifieke steekproef.
Robuustheid: De standaardvariant (kwadratisch) is zeer gevoelig voor uitbijters (kwadratische invloedfunctie). De absolute variant (L1) is aanzienlijk robuuster.

5. Betekenis en Toepassingsgebieden

De $c\delta$ -coëfficiënt biedt een nieuw perspectief voor analyse in diverse domeinen waar de structuur van variabiliteit belangrijker is dan de absolute waarden:

Kwantumfysica: Vergelijken van de spreiding van meetuitkomsten tussen kwantumsystemen of het evalueren van decoherentiepatronen.
Genetica en Evolutie: Beoordelen of soorten vergelijkbare patronen van genetische divergentie vertonen.
Psychometrie: Controleren of individuele verschillen consistent zijn over verschillende tests of condities.
Machine Learning & Kwantificering: Validatie van clustering (binnen-cluster coherentie) en het vergelijken van variabiliteitsstructuren in datasets.
Kwaliteitscontrole: Vergelijken van variabiliteit tussen verschillende productiemachines.

6. Beperkingen en Toekomstig Onderzoek

Interpretatie: Het ontbreken van een universele bovengrens (zoals bij Pearson's $r$ ) maakt het moeilijk om waarden direct tussen verschillende studies te vergelijken zonder normalisatie.
Uitbijters: De standaardformule is kwetsbaar voor extreme waarden.
Null-verdeling: Er is geen theoretische asymptotische verdeling; inferentie is afhankelijk van computationally intensive permutatietests.
Toekomst: Verdere ontwikkeling van asymptotische theorie, robuustheidsanalyses (exacte invloedfuncties), en software-implementatie met ingebouwde inferentiemethoden. Ook wordt een kwantumbasis voor $c\delta$ onderzocht, hoewel dit nog in een vroeg stadium verkeert.

Conclusie:
Het artikel introduceert $c\delta$ als een waardevol, zij het experimenteel, instrument voor het vergelijken van interne variabiliteitsstructuren. Het biedt een alternatief voor traditionele correlaties en distributie-maten, met name nuttig in scenario's waar "anders zijn op een vergelijkbare manier" de kernvraag is.

Correlation of divergency: c-delta. Being different in a similar way or not

1. Het Concept: "Anders zijn op dezelfde manier"

2. Hoe werkt het? (De Receptuur)

3. Waarom is dit handig? (Voorbeelden uit het dagelijks leven)

4. De Valkuilen (Waar moet je op letten?)

5. Conclusie: Wat levert het op?

Titel: Correlatie van Divergentie: cδc\deltacδ

1. Het Probleem

2. Methodologie: De cδc\deltacδ Coëfficiënt

3. Belangrijkste Bijdragen

4. Resultaten en Eigenschappen

5. Betekenis en Toepassingsgebieden

6. Beperkingen en Toekomstig Onderzoek

Meer zoals dit

Formally Verifying Quantum Phase Estimation Circuits with 1,000+ Qubits

Distributed g(2) Retrieval with Atomic Clocks: Eliminating Conventional Sync Protocols

Efficient training of photonic quantum generative models

Quantum algorithm for anisotropic diffusion and convection equations with vector norm scaling

Large Language Model-Assisted Superconducting Qubit Experiments

Titel: Correlatie van Divergentie: $c\delta$

2. Methodologie: De $c\delta$ Coëfficiënt