Non-Asymptotic Analysis of Efficiency in Conformalized Regression

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een waarzegger bent die voor een belangrijke beslissing moet zorgen, bijvoorbeeld: "Hoeveel geld gaat deze patiënt aan medicijnen uitgeven?" of "Hoe snel komt deze auto bij het stoplicht?".

In de wereld van kunstmatige intelligentie (AI) is het niet genoeg om alleen een getal te noemen. Als je zegt "Het wordt 50 euro", en het blijkt 100 euro te zijn, heb je een probleem. Daarom gebruiken wetenschappers een techniek genaamd Conformal Prediction. In plaats van één getal, geven ze een bereik (een voorspellingsinterval). Bijvoorbeeld: "Het wordt ergens tussen de 40 en 60 euro."

Deze techniek garandeert dat het echte antwoord binnen dat bereik valt, bijvoorbeeld in 95% van de gevallen. Maar hier zit een addertje onder het gras: hoe breed mag dat bereik zijn?

Als je zegt "Tussen 0 en 1000 euro", zit je waarschijnlijk goed (100% zekerheid), maar dat is niet nuttig. Het is als zeggen: "Het kan regenen of niet."
Als je zegt "Tussen 49 en 51 euro", is het heel nuttig, maar misschien niet 100% zeker.

De efficiëntie van deze methode is dus: hoe smal kan het bereik zijn terwijl we nog steeds veilig zijn?

Dit paper (geschreven voor de conferentie ICLR 2026) onderzoekt precies dit: Hoe smal kunnen we deze voorspellingskaders maken, en hoeveel data hebben we daarvoor nodig?

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De Balans tussen Training en Kalibratie

Om een AI-model te maken, heb je twee soorten data nodig:

Trainingsdata: Hiermee leert het model de patronen (zoals een student die een boek leest).
Kalibratie-data: Hiermee stelt het model de "veiligheidsmarge" in (zoals een proefexamen om te zien hoe streng de corrector moet zijn).

Vroeger dachten onderzoekers dat je de "foutmarge" (hoe vaak je mag falen, noemen we $\alpha$ ) gewoon als een vast getal kon zien. Maar deze auteurs zeggen: "Nee, dat getal is cruciaal!" Als je een heel kleine foutmarge wilt (bijvoorbeeld 99,9% zekerheid), moet je heel voorzichtig zijn met hoe je je data verdeelt.

2. De Ontdekking: Het "Fase-overgang"-effect

De auteurs hebben wiskundige formules opgesteld die laten zien hoe de breedte van je voorspellingskader afhangt van drie dingen:

Hoeveel data je hebt om te leren ( $n$ ).
Hoeveel data je hebt om te kalibreren ( $m$ ).
Hoe streng je wilt zijn ( $\alpha$ ).

Ze ontdekten iets fascinerends, wat ze een fase-overgang noemen.

De Analogie van de Fiets:
Stel je voor dat je een fietsroute plakt.

Scenario A (Veilige route): Je wilt niet dat je ooit van de weg afkomt. Je gebruikt een heel breed pad. Dit kost weinig moeite, maar je weet niet precies waar je bent.
Scenario B (Scherpe route): Je wilt precies op de lijn fietsen. Dit is heel moeilijk. Als je te weinig data hebt om de weg te kennen (trainingsdata), of te weinig data om de bochten te meten (kalibratie-data), dan moet je je pad plotseling enorm breed maken om veilig te blijven.

De paper laat zien dat er een kritiek punt is. Als je de foutmarge ( $\alpha$ ) te klein maakt zonder genoeg data, explodeert de breedte van je voorspellingskader. Het is alsof je probeert door een naaldoog te kijken: als je niet perfect bent, moet je je hele lichaam uitrekken om erdoor te komen.

3. De Formule in Gewoon Nederlands

De auteurs geven een formule die er zo uitziet:
$O(1/\sqrt{n} + 1/(\alpha^2 n) + 1/\sqrt{m} + \dots)$

Laten we dit vertalen:

$1/\sqrt{n}$: Hoe meer je leert, hoe smaller het kader wordt. Maar het heeft een afnemende meerwaarde (verdubbel je data, en je wordt niet twee keer zo slim, maar iets minder).
**$1/(\alpha^2 n) $:** Dit is de belangrijke nieuwe ontdekking. Als je een heel klein$ \alpha $wilt (zeer hoge zekerheid), en je hebt niet genoeg data ($ n$), dan wordt dit getal gigantisch. Je moet dus veel meer data verzamelen om een heel klein foutmarge te halen.
$1/\sqrt{m}$: Hoe meer kalibratie-data je hebt, hoe scherper je de veiligheidsmarge kunt instellen.

4. De Praktische Les: Hoe verdeel je je data?

De paper geeft een advies voor mensen die AI-modellen bouwen:

Als je een redelijke zekerheid wilt (bijv. 95%): Verdeel je data ongeveer gelijk over leren en kalibreren.
Als je extreem hoge zekerheid wilt (bijv. 99,9%): Je moet je data anders verdelen. Je moet waarschijnlijk meer data gebruiken om te kalibreren dan om te leren, anders wordt je voorspellingskader zo breed dat het nutteloos is.

Het is alsof je een team bouwt voor een bergbeklimming:

Voor een normale wandeling: Je hebt evenveel klimmers nodig die de weg kennen (leren) als die de kaart checken (kalibreren).
Voor een extreme expeditie op de top van de Everest: Je hebt misschien minder mensen nodig die de route plannen, maar je hebt veel meer mensen nodig om de weerkaarten te controleren en de veiligheidsmarges te berekenen, anders loop je het risico om in een afgrond te stappen.

Samenvatting

Deze paper zegt: "Stop met het behandelen van de foutmarge als een vast getal. Het is een knop die je kunt draaien, maar als je hem te ver draait (naar 100% zekerheid), moet je je hele strategie voor het verzamelen van data aanpassen. Anders krijg je voorspellingen die wel veilig zijn, maar zo breed dat ze niets zeggen."

Het is een handleiding om de perfecte balans te vinden tussen zekerheid en nuttigheid, zodat AI-modellen in kritieke situaties (zoals gezondheidszorg of zelfrijdende auto's) niet alleen veilig, maar ook slim en nuttig zijn.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Non-Asymptotic Analysis of Efficiency in Conformalized Regression", geschreven in het Nederlands.

Titel: Non-Asymptotische Analyse van Efficiëntie in Geconformaliseerde Regressie

Auteurs: Yunzhen Yao, Lie He, Michael Gastpar
Publicatie: ICLR 2026

1. Probleemstelling

Conformale voorspelling (Conformal Prediction, CP) biedt een raamwerk om voorspellingssets te genereren met gegarandeerde dekking (coverage) voor machine learning-modellen, zelfs zonder aannames over de onderliggende data-verdeling. Hoewel de geldigheid (validity) van deze methoden goed begrepen is, is de efficiëntie (de informativiteit van de voorspellingsset) minder goed onderzocht in niet-asymptotische settings.

In regressieproblemen wordt efficiëntie gemeten aan de hand van de verwachte lengte van het voorspellingsinterval. Eerdere werken behandelden vaak het foutniveau $\alpha$ (miscoverage level) als een vaste constante en richtten zich op asymptotische convergentie (wanneer $n \to \infty$ ). Er ontbreekt echter een strikte, niet-asymptotische analyse die de afhankelijkheid van de efficiëntie expliciet beschrijft in termen van:

De grootte van de trainingsset ( $n$ ).
De grootte van de kalibratieset ( $m$ ).
Het foutniveau ( $\alpha$ ).

De kernvraag is: hoe beïnvloeden $n$ , $m$ en $\alpha$ gezamenlijk de afwijking van de werkelijke voorspellingslengte ten opzichte van de ideale "oracle" lengte, en hoe moeten we data verdelen tussen training en kalibratie om deze afwijking te minimaliseren?

2. Methodologie

De auteurs analyseren twee veelgebruikte methoden voor geconformaliseerde regressie die worden getraind met Stochastic Gradient Descent (SGD):

Conformalized Quantile Regression (CQR): Schat zowel de onder- als bovenkant van het interval door twee conditionele quantielen ( $\alpha/2$ en $1-\alpha/2$) te leren.
Conformalized Median Regression (CMR): Schat de conditionele mediaan en gebruikt de absolute residuen als niet-conformiteitscores voor een symmetrisch interval.

Kernassumpties:

Lineaire modellen met een convex parameterbereik.
De data $(X, Y)$ wordt i.i.d. getrokken uit een onbekende verdeling $P$ .
De covariaten $X$ zijn begrensd en de respons $Y$ heeft een begrenste steun.
De conditionele dichtheid van $Y$ gegeven $X$ is continu en strikt positief binnen een interval.
Het "well-specified" geval: de ware quantiel- of mediaanfunctie behoort tot de lineaire modelklasse.

Analytische Aanpak:
De auteurs leiden niet-asymptotische bovengrenzen af voor de verwachte afwijking van de voorspellingslengte ten opzichte van de oracle-lengte. Ze ontleden de fout in vier componenten:

Fout door het trainen van het model (afhankelijk van $n$ ).
Fout door het schatten van de populatie-quantiel van de scores.
Fout door het schatten van de steekproef-quantiel van de scores (afhankelijk van $m$ ).
Exponentiële concentratiefouten.

Ze gebruiken technieken uit de statistische leertheorie, waaronder de Dvoretzky-Kiefer-Wolfowitz ongelijkheid en eigenschappen van SGD-convergentie onder sterke convexiteit.

3. Belangrijkste Bijdragen

Niet-asymptotische Bovengrenzen:
De paper levert de eerste niet-asymptotische bovengrens voor de efficiëntie van CQR en CMR getraind met SGD. De bovengrens voor de verwachte lengte-afwijking is van de orde:
$O\left(\frac{1}{\sqrt{n}} + \frac{1}{\alpha^2 n} + \frac{1}{\sqrt{m}} + \exp(-\alpha^2 m)\right)$
Dit resultaat maakt expliciet zichtbaar hoe $\alpha$ de convergentiesnelheid beïnvloedt, in tegenstelling tot eerdere werken die $\alpha$ als constant beschouwden.
Fase-overgangen in Convergentie:
De analyse onthult kritieke "fase-overgangen" afhankelijk van de grootte van $\alpha$ ten opzichte van $n$ en $m$ :
- Als $\alpha$ te klein is (bijv. $\alpha = o(n^{-1/4})$ ), domineert de term $1/(\alpha^2 n)$, wat leidt tot een veel langzamere convergentie.
- Als $\alpha$ groot genoeg is ( $\alpha = \Omega(n^{-1/4})$ ), convergeert de fout met de optimale snelheid $O(1/\sqrt{n})$ .
- Een vergelijkbaar gedrag geldt voor de kalibratiegrootte $m$ en de exponentiële term.
Richtlijnen voor Data-allokatie:
Op basis van de theoretische grenzen bieden de auteurs praktische richtlijnen voor het verdelen van data tussen training ( $n$ ) en kalibratie ( $m$ ):
- Voor een vast $\alpha$ dat niet te klein is, is een gelijke verdeling ( $n \approx m$ ) vaak optimaal.
- Voor zeer kleine $\alpha$ is een grotere kalibratieset nodig om de exponentiële term te onderdrukken, maar dit heeft een afweging met de trainingsgrootte.
Generalisatie:
Hoewel de theorie is afgeleid voor SGD, is het raamwerk toepasbaar op andere optimalisatie-algoritmen door de specifieke convergentiesnelheid van die algoritmen in te vullen.

4. Resultaten

Theoretische Validatie: De afgeleide formules voorspellen correct dat de lengte-afwijking toeneemt naarmate $\alpha$ afneemt, vooral wanneer $\alpha$ onder een bepaalde drempel zakt.
Empirische Experimenten (Synthetisch):
- Experimenten bevestigen de voorspelde "fase-overgang". In log-log plots van de lengte-afwijking versus $n$ , verandert de helling van $-1$ naar $-0.5$ wanneer $\alpha$ toeneemt, wat overeenkomt met de overgang van de term $1/(\alpha^2 n) $naar$ 1/\sqrt{n}$.
- De afhankelijkheid van $\alpha$ volgt een machtswet van ongeveer $\alpha^{-2}$ , zoals voorspeld.
- De resultaten zijn robuust voor verschillende optimalisatoren (SGD, SGD met momentum, AdamW) en zelfs voor niet-lineaire modellen, hoewel de theorie specifiek voor lineaire modellen is opgesteld.
Empirische Experimenten (Real-world Data):
- Toepassing op datasets zoals MEPS, California Housing en Abalone bevestigt dat een grotere kalibratieset de variabiliteit verlaagt en dat de data-allokatie een U-vormige relatie vertoont met de efficiëntie (te veel of te weinig data voor training/kalibratie is suboptimaal).
- Voor zeer kleine $\alpha$ (bijv. < 0.003) worden de voorspellingsintervallen onredelijk groot, wat overeenkomt met het theoretische regime waar de bovengrens niet meer verdwijnt.

5. Betekenis en Impact

Deze paper is significant omdat het de theoretische kloof overbrugt tussen de asymptotische theorie en de praktische toepassing van conformale voorspelling in eindige steekproeven.

Praktische Gids: Het biedt data-wetenschappers een wiskundig onderbouwd kader om het compromis tussen dekking (klein $\alpha$ ) en efficiëntie (korte intervallen) te beheren. Het waarschuwt dat het kiezen van een extreem klein $\alpha$ zonder voldoende data (zowel $n$ als $m$ ) leidt tot nutteloos brede voorspellingsintervallen.
Fase-overgangen: Het inzicht dat er kritieke drempels zijn voor $\alpha$ (afhankelijk van $n$ ) is een nieuw en waardevol inzicht dat eerder werk over het hoofd zag.
Robuustheid: Het feit dat de theorie en experimenten consistent zijn voor verschillende optimalisatoren en zelfs niet-lineaire modellen, suggereert dat de bevindingen breed toepasbaar zijn in de praktijk van machine learning.

Kortom, dit werk transformeert het begrip van conformale regressie van een "werkend maar onbegrepen" hulpmiddel naar een methodologie met strikte, niet-asymptotische garanties voor zowel dekking als efficiëntie.

Non-Asymptotic Analysis of Efficiency in Conformalized Regression

1. Het Probleem: De Balans tussen Training en Kalibratie

2. De Ontdekking: Het "Fase-overgang"-effect

3. De Formule in Gewoon Nederlands

4. De Praktische Les: Hoe verdeel je je data?

Samenvatting

Titel: Non-Asymptotische Analyse van Efficiëntie in Geconformaliseerde Regressie

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers