Kernel Tests of Equivalence

Each language version is independently generated for its own context, not a direct translation.

De "Gelijkheidsproef": Hoe je zeker weet dat twee dingen echt hetzelfde zijn (en niet alleen "niet anders")

Stel je voor dat je twee bakkers hebt: Bakker A (de "nominaal" of standaardbakker) en Bakker B (de "kandidaat"). Je wilt weten of de broden van Bakker B net zo goed zijn als die van Bakker A.

In de traditionele statistiek (de "oude manier") doe je een proef waarbij je vraagt: "Zijn er bewijzen dat deze broden verschillend zijn?"

Als het antwoord ja is, zeg je: "Ze zijn anders!"
Maar wat als het antwoord nee is? Dan zeg je: "Oké, we hebben geen bewijs dat ze verschillend zijn."

Het probleem: "Geen bewijs van verschil" betekent niet per se dat ze hetzelfde zijn. Het kan ook betekenen dat je te weinig broden hebt gegeten om het verschil te proeven, of dat je proef te slordig was. Het is alsof je zegt: "Ik heb geen bewijs dat de aarde plat is," terwijl je eigenlijk gewoon niet goed hebt gekeken.

De oplossing in dit papier: De auteurs (Xing Liu en Axel Gandy) hebben een nieuwe manier bedacht om echt te bewijzen dat twee dingen equivalent (gelijkwaardig) zijn. Ze noemen dit "Equivalence Testing" of "Gelijkheidsproeven".

Hier is hoe hun nieuwe methode werkt, vertaald naar alledaagse taal:

1. De Omgekeerde Vraag

In plaats van te vragen "Zijn ze verschillend?", vragen ze nu: "Zijn ze verschillend genoeg om er echt iets van te merken?"

Stel je een "smakelijke marge" voor. Als Bakker B's brood maar een heel klein beetje anders smaakt (binnen die marge), dan vinden we dat prima. Ze zijn voor ons doel "gelijk".

De nieuwe hypothese: "Deze broden zijn te verschillend om als gelijk te worden beschouwd."
Het doel: We willen dit beweren ontkrachten. Als we kunnen bewijzen dat ze niet te verschillend zijn, dan zeggen we: "Ja, ze zijn gelijkwaardig!"

2. De Twee Meetinstrumenten (De "Smaaktesten")

Om te meten hoe ver twee verdelingen (de broden) van elkaar verwijderd zijn, gebruiken de auteurs twee slimme wiskundige hulpmiddelen, gebaseerd op "kernels" (denk aan dit als een super-geavanceerde vergelijkingstool die elk detail van het brood meet, van de korst tot de kruimel).

De Eén-Stekker Test (KSD): Dit is voor als je alleen de "receptuur" van Bakker A kent (de wiskundige formule), maar je geen echte broden van hem kunt krijgen om te proeven. Je kunt alleen de score berekenen op papier.
- Voorbeeld: Je hebt een perfecte digitale simulatie van een auto, en je wilt weten of een nieuwe, goedkopere motor (Bakker B) precies hetzelfde rijdt. Je kunt de nieuwe motor niet fysiek testen, maar je kent de wiskunde van de oude.
De Twee-Stekker Test (MMD): Dit is als je echte broden van beide bakkers hebt. Je kunt ze naast elkaar leggen en vergelijken.
- Voorbeeld: Je hebt een dataset van echte foto's van katten (Bakker A) en een dataset van AI-gegenereerde katten (Bakker B). Je wilt weten of de AI-katten er echt hetzelfde uitzien.

3. Het Grote Probleem: De "Nabijheid" Valstrik

De auteurs ontdekten dat de bestaande methoden om te meten of iets "nabij" is, vaak fouten maken als het verschil heel klein is.

De "Normale" Benadering: Dit is alsof je een rechte lijn tekent om een ronde bal te beschrijven. Als je ver weg staat, lijkt het wel goed. Maar als je heel dichtbij komt (bij een heel kleine marge), is die rechte lijn volledig verkeerd. Dit leidt tot fouten: je denkt dat twee dingen gelijk zijn, terwijl ze dat niet zijn (of andersom).
De "Bootstrapping" Oplossing: De auteurs hebben een nieuwe, robuustere manier bedacht. Denk aan bootstrapping als het doen van duizenden mini-experimenten met je data. Je neemt je broden, mixt ze opnieuw, proeft ze opnieuw, en doet dit duizenden keren om een heel betrouwbaar beeld te krijgen.
- Resultaat: Deze methode is iets langzamer (meer rekenwerk), maar hij is veel betrouwbaarder, vooral als je wilt bewijzen dat het verschil heel klein is.

4. De "Slimme Marge" (Hoe groot mag het verschil zijn?)

Een van de lastigste dingen bij dit soort tests is bepalen: "Hoe groot mag het verschil maximaal zijn voordat we zeggen: 'Nee, dit is niet hetzelfde'?"

De auteurs stellen een slimme, datagedreven manier voor. In plaats van een willekeurig getal te kiezen, vragen ze: "Wat is het kleinste verschil dat we met onze test zeker kunnen detecteren?"
Ze kiezen de marge zo, dat als er echt een klein verschil is, de test dat ook echt ziet. Dit voorkomt dat je per ongeluk twee slechte broden als "gelijk" bestempelt.

Samenvatting in een Metafoor

Stel je voor dat je een weegschaal hebt.

Oude methode: Je legt twee appels op de schaal. Als de naald niet beweegt, zeg je: "Ze wegen hetzelfde." Maar misschien is de weegschaal gewoon te slordig om een gram verschil te zien.
Nieuwe methode (deze paper): Je zegt eerst: "Ik wil zeker weten dat ze binnen 1 gram van elkaar liggen." Je gebruikt een super-geavanceerde, digitale weegschaal (de kernels) en je doet de weging duizenden keren met verschillende instellingen (bootstrapping) om zeker te zijn dat je die 1 gram echt kunt meten. Als de naald dan stilstaat, weet je met 95% zeker: "Ja, deze appels zijn voor alle praktische doeleinden identiek."

Waarom is dit belangrijk?
Dit is cruciaal voor medicijnen (is het goedkope generieke medicijn net zo goed als het dure merk?), kunstmatige intelligentie (is de AI-simulatie betrouwbaar genoeg?) en wetenschap. Het geeft ons de zekerheid om te zeggen: "Het is niet alleen 'niet anders', het is echt 'goed genoeg hetzelfde'."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Kernel Tests of Equivalence" in het Nederlands.

Titel: Kernel Tests of Equivalence (Kern-Tests voor Equivalentie)

Auteurs: Xing Liu (QuantCo) en Axel Gandy (Imperial College London)
Datum: 12 maart 2026

1. Probleemstelling

Traditionele goodness-of-fit (GOF) tests zijn ontworpen om te bepalen of er een statistisch significant verschil bestaat tussen een waargenomen verdeling $Q$ en een nominale verdeling $P$ (de nulhypothese $H_0^*: Q = P$ ). Een faal om deze nulhypothese te verwerpen, betekent echter niet dat de verdelingen equivalent zijn; het kan simpelweg het gevolg zijn van een gebrek aan testkracht (Type-II fout). Bovendien zal bij voldoende grote steekproefomvang de nulhypothese $Q=P$ altijd worden verworpen omdat "alle modellen fout zijn" (ze benaderen de werkelijkheid slechts bij benadering).

In veel toepassingen (zoals bio-equivalentie, farmacokinetiek en validatie van generatieve modellen) is het doel echter om aan te tonen dat twee verdelingen praktisch equivalent zijn binnen een vooraf gedefinieerde marge. Dit vereist equivalentietesten, waarbij de nulhypothese wordt omgekeerd:

$H_0$ : De verdelingen verschillen meer dan een vooraf bepaalde marge $\theta$ ( $D(Q, P) > \theta$ ).
$H_1$ : De verdelingen zijn equivalent binnen de marge ( $D(Q, P) \le \theta$ ).

Bestaande methoden voor equivalentietesten zijn vaak beperkt tot parametrische modellen of focussen slechts op specifieke momenten (zoals gemiddelde of variantie) in plaats van de volledige verdeling. Recent werk (bijv. Chen et al., 2023) gebruikt de Maximum Mean Discrepancy (MMD) voor niet-parametrische testen, maar deze methoden vertrouwen op asymptotische normaalbenaderingen die falen bij kleine equivalentiemarges, wat leidt tot ongecontroleerde Type-I fouten.

2. Methodologie

De auteurs stellen twee families van kernel-gebaseerde equivalentietesten voor, die gebruikmaken van twee statistische discrepantiemaatstaven:

Kernel Stein Discrepancy (KSD): Geschikt voor one-sample testen (waarbij $P$ bekend is via de scorefunctie, maar geen steekproeven van $P$ beschikbaar zijn).
Maximum Mean Discrepancy (MMD): Geschikt voor two-sample testen (waarbij zowel $Q$ als $P$ worden benaderd via steekproeven).

Voor elke discrepantiemaatstaf worden twee varianten van de test ontwikkeld:

A. Normaliteit-gebaseerde tests (CLT)

E-KSD-Normal & E-MMD-Normal: Deze tests gebruiken een Central Limit Theorem (CLT) benadering. Ze verwerpen $H_0$ als de geschatte discrepantie significant lager is dan de marge $\theta$ , gebaseerd op een normale verdeling.
Beperking: Hoewel deze tests asymptotisch geldig zijn, vertonen ze bij kleine steekproeven of zeer kleine marges ( $\theta \to 0$ ) een slechte Type-I foutcontrole. Dit komt omdat de asymptotische verdeling van de estimator verandert wanneer $Q$ dicht bij $P$ ligt (de verdeling wordt niet langer Gaussiaans, maar een som van gewogen chi-kwadraatverdelingen).

B. Bootstrapping-gebaseerde tests

E-KSD-Boot & E-MMD-Boot: Deze tests gebruiken een bootstrapping-techniek om de kritieke waarden te bepalen, zonder afhankelijk te zijn van een normale benadering.
Mechanisme: Ze maken gebruik van de driehoeksongelijkheid van de KSD/MMD om een conservatieve bovengrens te construeren. De kritieke waarde wordt geschat via gewogen bootstrapping (voor KSD) of een combinatie van bootstraps voor beide steekproeven (voor MMD).
Voordeel: Deze methode behoudt een strakke controle op de Type-I fout, zelfs bij kleine steekproefgroottes en zeer kleine equivalentiemarges, waar de normaliteit-gebaseerde tests falen.

C. Data-gedreven selectie van de marge ( $\theta$ )

De auteurs stellen een methode voor om de equivalentiemarge $\theta$ data-gedreven te kiezen. In plaats van een willekeurige waarde te kiezen, wordt $\theta$ bepaald als de kleinste effectgrootte die de test met een vooraf gespecificeerde power ($1-\beta$) kan detecteren. Dit zorgt ervoor dat de test voldoende gevoelig is om relevante verschillen te onderscheiden, terwijl de Type-I fout gecontroleerd blijft.

3. Belangrijkste Bijdragen

Nieuwe Testfamilies: Introductie van vier specifieke tests (E-KSD-Normal, E-KSD-Boot, E-MMD-Normal, E-MMD-Boot) die niet-parametrisch zijn en de volledige verdeling testen.
Theoretische Validatie: Bewijzen van consistentie en asymptotische geldigheid voor alle tests. Ze tonen aan dat de bootstrapping-methoden een uniforme controle op de Type-I fout bieden, zelfs in situaties waar de CLT-benadering instort.
Generalisatie van Bestaand Werk: De E-MMD-Normal test generaliseert het werk van Chen et al. (2023) door toe te staan dat de steekproefgroottes van de twee verdelingen verschillend zijn ( $n \neq m$ ), wat in de praktijk vaak het geval is.
Data-gedreven Marge: Een nieuwe aanpak om $\theta$ te selecteren op basis van gewenste testpower, wat de interpretatie en toepasbaarheid in praktijkproblemen verbetert.
Efficiënte Berekening: De voorgestelde estimators voor variantie en bootstraps kunnen efficiënt worden berekend met een complexiteit van $O((n+m)^2)$ .

4. Resultaten (Numerieke Experimenten)

De auteurs evalueren de tests op verschillende scenario's:

Gaussische Mean-Shift: Vergelijking van Type-I fout en power.
- De E-KSD-Normal en E-MMD-Normal tests hebben een hogere power, maar vertonen een geinflatieerde Type-I fout (verwerpen te vaak) wanneer de marge $\theta$ klein is of de steekproefomvang gemiddeld is.
- De Bootstrapping-tests (E-KSD-Boot / E-MMD-Boot) handhaven een correcte Type-I foutcontrole (nabij de nominale $\alpha=0.05$ ) zelfs bij kleine marges en kleine steekproeven, ten koste van iets lagere power.
Gaussian-Bernoulli Restricted Boltzmann Machines (GB-RBM): Toepassing op een model met een onbekende normaliserende constante. De KSD-Boot test toont goede calibratie.
MNIST Dataset: Toepassing op hoge dimensies (784 pixels). De MMD-Boot test is goed gekalibreerd, terwijl de MMD-Normal test faalt in het controleren van Type-I fouten door de hoge dimensie en de daaruit voortvloeiende slechte normaalbenadering.

Conclusie uit experimenten: De bootstrapping-varianten zijn superieur voor het garanderen van geldige conclusies over equivalentie, vooral in realistische scenario's met beperkte data of kleine toegestane afwijkingen.

5. Significatie en Toekomstperspectief

Deze paper biedt een cruciale oplossing voor het probleem dat traditionele statistische testen niet kunnen bewijzen dat twee verdelingen "gelijk genoeg" zijn.

Praktische Impact: De methoden zijn direct toepasbaar in gebieden zoals farmaceutische studies (bio-equivalentie), validatie van generatieve AI-modellen (bijv. GANs), en simulatiegebaseerde inferentie.
Methodologische Vooruitgang: Het werk benadrukt de beperkingen van asymptotische normaalbenaderingen bij equivalentietesten en pleit voor bootstrapping als robuust alternatief.
Toekomstige Richtingen: De auteurs suggereren het uitbreiden van deze methoden naar andere statistische discrepantiemaatstaven (zoals Energy Distance) en het ontwikkelen van betere interpretaties voor de gekozen marge $\theta$ in domeinen met strikte biologische criteria.

Kortom, dit artikel levert een robuust, niet-parametrisch raamwerk om statistische equivalentie te testen met gegarandeerde foutcontrole, wat essentieel is voor wetenschappelijke validatie waar "niet significant verschillend" niet voldoende is.

Kernel Tests of Equivalence

1. De Omgekeerde Vraag

2. De Twee Meetinstrumenten (De "Smaaktesten")

3. Het Grote Probleem: De "Nabijheid" Valstrik

4. De "Slimme Marge" (Hoe groot mag het verschil zijn?)

Samenvatting in een Metafoor

Titel: Kernel Tests of Equivalence (Kern-Tests voor Equivalentie)

1. Probleemstelling

2. Methodologie

A. Normaliteit-gebaseerde tests (CLT)

B. Bootstrapping-gebaseerde tests

C. Data-gedreven selectie van de marge (θ\thetaθ)

3. Belangrijkste Bijdragen

4. Resultaten (Numerieke Experimenten)

5. Significatie en Toekomstperspectief

Meer zoals dit

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM

C. Data-gedreven selectie van de marge ( $\theta$ )