A Researcher's Guide to Empirical Risk Minimization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meesterkok bent die probeert het perfecte recept te vinden voor een nieuwe soep. Je hebt een enorme lijst met mogelijke ingrediënten (de functieklassen). Je wilt het recept kiezen dat de minste klachten van je gasten oplevert (de risico of risk).

Maar er is een probleem: je kunt niet alle gasten ter wereld proeven. Je moet je baseren op een kleine steekproef van 100 mensen die je hebt uitgenodigd (de data). Als je het recept kiest dat perfect is voor die 100 mensen, loop je het risico dat het voor de rest van de wereld een ramp is. Dit noemen we overfitting: je hebt te veel geleerd van je steekproef en te weinig van de werkelijkheid.

Dit artikel, geschreven door Lars van der Laan, is als een kookboek voor statistici. Het geeft een handleiding om te bewijzen hoe goed je "steekproef-recept" (de Empirical Risk Minimizer of ERM) eigenlijk is, zelfs als je niet weet wat de echte wereld in petto heeft.

Hier is de kern van het verhaal, vertaald naar alledaagse taal:

1. De Drie-Stappen-Formule (Het Recept)

De auteur zegt: "Vergeet die ingewikkelde wiskundige bewijzen die voor elk probleem opnieuw uitgevonden moeten worden. Er is een standaardrecept dat bijna altijd werkt."

De Basisregel (De "Grote Droom"): Eerst kijken we naar het verschil tussen wat je dacht dat het beste recept was (op basis van je 100 gasten) en wat het echte beste recept is. Dit verschil noemen we regret (spijt). De eerste stap is een simpele wiskundige ongelijkheid die zegt: "Je spijt is niet groter dan de 'ruis' in je steekproef."
De Lokale Concentratie (De "Bliksemsnelle Voorspelling"): Nu moeten we die "ruis" meten. Als je alleen naar één specifiek recept kijkt, is het makkelijk. Maar je hebt duizenden recepten om uit te kiezen. De auteur gebruikt een slimme truc: hij kijkt niet naar alle recepten, maar alleen naar die recepten die al heel dicht bij het beste recept zitten. Dit is als kijken naar de top 10 koks in plaats van de hele stad. Dit heet geconcentreerde complexiteit.
De Vaste-Punt-Argumentatie (De "Zelfcorrigerende Balans"): Dit is het meest magische deel. Stel je voor dat je zegt: "Mijn spijt is X." Maar de wiskunde zegt: "Nee, je spijt is afhankelijk van hoe goed je al bent." Als je al heel goed bent (kleine spijt), is de ruis ook klein. De auteur lost deze cirkelredenering op door een kritieke straal te vinden. Dit is een soort "drempelwaarde". Als je binnen deze straal zit, weet je dat je recept goed genoeg is.

2. De "Kritieke Straal" (De Maatstaf voor Goede Koks)

Stel je voor dat je een maatstaf hebt om te zeggen hoe "ingewikkeld" een keuken is.

Een simpele keuken met alleen zout en peper (een lineair model) heeft een kleine kritieke straal. Je hebt maar weinig proefpersonen nodig om het perfecte recept te vinden.
Een hypermoderne keuken met 10.000 ingrediënten en complexe combinaties (een neuraal netwerk of Sobolev-klasse) heeft een grote kritieke straal. Je hebt veel meer gasten nodig om zeker te weten dat je niet toevallig een goed recept hebt gevonden.

Deze "kritieke straal" is de sleutel. Hij vertelt je precies hoe snel je spijt afneemt naarmate je meer data verzamelt.

3. De "Nuisance" (De Stoorzenders)

Soms moet je een recept maken, maar heb je eerst een ander, onbekend ingrediënt nodig. Bijvoorbeeld: je wilt de gemiddelde temperatuur van een stad weten, maar je weet niet hoe de wind precies waait (de nuisance component). Je moet de wind eerst schatten voordat je de temperatuur kunt berekenen.

In de statistiek heet dit ERM met nuisance components.

Het oude probleem: Als je de wind verkeerd schat, gaat je temperatuurberekening volledig in de soep lopen.
De oplossing in dit artikel: De auteur laat zien dat je dit kunt oplossen door de data slim te splitsen (zoals twee aparte teams die onafhankelijk van elkaar werken) of door een speciaal soort "orthogonaal" recept te gebruiken. Dit zorgt ervoor dat kleine foutjes in het schatten van de wind geen grote ramp worden voor je temperatuurvoorspelling.

4. Waarom is dit belangrijk?

Vroeger moest elke onderzoeker voor elk nieuw probleem (bijvoorbeeld: voorspellen van ziektes, beurskoersen of AI-chatbots) een heel nieuw, complex wiskundig bewijs schrijven om te zeggen: "Mijn methode werkt."

Dit artikel is als een bouwset. Het geeft je de standaardonderdelen (de drie stappen, de maatstaf voor complexiteit, de regels voor stoorzenders) zodat je die kunt gebruiken om voor elk nieuw probleem snel te bewijzen dat je methode werkt.

Kort samengevat:
Het artikel leert ons hoe we de "ruis" in onze data kunnen meten en hoe we zeker weten dat onze AI of statistische model niet alleen maar geluk heeft gehad met de data die we zagen, maar echt iets leert over de wereld. Het gebruikt slimme meetlatjes (de kritieke straal) en een standaardrecept om dit voor bijna elke denkbare situatie te bewijzen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Een Gids voor Onderzoekers voor Empirisch Risicominimalisatie (ERM)

Auteur: Lars van der Laan (Universiteit van Washington)
Datum: 4 maart 2026

1. Probleemstelling

Empirisch Risicominimalisatie (ERM) is een fundamentele methode in moderne statistiek en machine learning om een voorspellingsfunctie $\hat{f}_n$ te leren door het empirisch risico $R_n(f)$ te minimaliseren over een functieklasse $\mathcal{F}$ . Het primaire doel is om garanties te geven voor de regret (of excess risk), gedefinieerd als $R(\hat{f}_n) - R(f_0)$ , waarbij $f_0$ de populatie-optimalisator is.

Hoewel het principe van ERM eenvoudig is, is het technisch complex om scherpe convergentiesnelheden af te leiden in nieuwe settings, vooral wanneer:

De verliesfunctie en de functieklasse complex zijn.
Er sprake is van nuisance components (storende variabelen) die uit de data moeten worden geschat (bijv. in causale inferentie, ontbrekende data of domeinadaptatie).
Men werkt met in-sample schatting (waarbij de nuisance en de ERM op dezelfde data worden gefit) in plaats van sample splitting.

De huidige literatuur verspreidt vaak bewijstechnieken over verschillende papers, wat het moeilijk maakt om een gestructureerde aanpak te vinden voor specifieke verliesfuncties en klassen.

2. Methodologie: Het Drie-Stappen Recipe

De kern van deze gids is een gestructureerde, modulaire aanpak om hoge-probabiliteit regret-bounds af te leiden. De auteur organiseert de meeste ERM-afleidingen rond een drie-stappen recept:

De Basisongelijkheid (Deterministische Regret Bound):
Er wordt een deterministische bovengrens afgeleid voor de regret:
$R(\hat{f}_n) - R(f_0) \leq (P_n - P)\{\ell(\cdot, f_0) - \ell(\cdot, \hat{f}_n)\}$
Hierbij is $(P_n - P)$ het empirisch proces. Deze stap reduceert het probleem tot het beheersen van de fluctuatie van het empirisch proces.
Uniforme Lokale Concentratie (High-Probability Bound):
In plaats van een globale supremum te nemen (wat te conservatief is), wordt gebruik gemaakt van lokale concentratie-ongelijkheden. Deze bounds passen zich aan aan de lokale complexiteit rondom $f_0$ . De sleutel hierbij is het gebruik van gelocaliseerde Rademacher-complexiteit en de kritieke straal (critical radius) $\delta_n$ .
De auteur leunt zwaar op de Bernstein-type variance-risk conditie, die stelt dat de variantie van het verliesverschil begrensd wordt door de regret zelf:
$\text{Var}(\ell(Z, f) - \ell(Z, f_0)) \leq c_{\text{Bern}} \{R(f) - R(f_0)\}$
Dit stelt de analyse in staat om snellere convergentiesnelheden te halen dan de standaard $O(n^{-1/2})$ .
Vastpunt-Argument (Fixed-Point Argument):
Door de basisongelijkheid te combineren met de lokale concentratiebound, ontstaat een ongelijkheid waarbij de regret aan beide kanten voorkomt (een vastpuntsongelijkheid). Door deze op te lossen (vaak met behulp van Young's ongelijkheid), wordt de regret begrensd door de kwadraat van de kritieke straal:
$R(\hat{f}_n) - R(f_0) \lesssim \delta_n^2$

3. Belangrijkste Bijdragen

A. Generalisatie via Kritieke Straal en Entropie

De paper biedt een algemene stelling (Theorema 3) die de regret bound uitdrukt in termen van de kritieke straal $\delta_n$ van de gestandaardiseerde verliesverschilklasse.

Praktische Toepassing: De auteur ontwikkelt methoden om $\delta_n$ $δ_{n}$ te upper-boundsen via metrische entropie-integrale (metric-entropy integrals). Dit maakt het mogelijk om bekende snelheden te herleiden voor klassen zoals:
- VC-subgraph klassen.
- Sobolev/Hölder klassen (gladheid).
- Klassen met begrensd Hardy-Krause variatie.
- RKHS (Reproducing Kernel Hilbert Spaces) met specifieke eigenwaarde-afname.

B. ERM met Nuisance Components

Een significant deel van de gids richt zich op situaties waar het verlies afhangt van een geschatte nuisance-component $\hat{g}$ (bijv. gewichten in inverse probability weighting of pseudo-outcomes).

Regret Transfer: De auteur toont aan dat men vaak een standaard ERM-bound kan toepassen op het geschatte verlies en vervolgens een "regret-transfer" ongelijkheid kan gebruiken om de fout door de nuisance-schatting te controleren.
Orthogonale Verliezen: Er wordt ingegaan op Neyman-orthogonale verliezen (Foster & Syrgkanis, 2023), waarbij de eerste-orde gevoeligheid voor nuisance-fouten wordt geëlimineerd, waardoor hogere-orde resttermen overblijven.

C. In-Sample Nuisance Schatting (Novelty)

Dit is een van de belangrijkste nieuwe bijdragen. Traditioneel vereist snelle convergentie bij nuisance-schatting sample splitting of cross-fitting om data-afhankelijkheid te doorbreken.

De auteur bewijst dat voor voldoende gladde optimalisatieklassen (zoals Hölder of Sobolev klassen), in-sample schatting (zonder sample splitting) toch oracle-snelheden kan bereiken.
Dit vereist dat de nuisance-klasse voldoet aan een Donsker-type conditie (de complexiteit is niet te groot) en dat er een interpolatie-ongelijkheid geldt tussen de $L_2$ - en $L_\infty$ -normen (Condition B4).
De afgeleide snelheid hangt af van de kritieke stralen van zowel de hoofdklasse $\mathcal{F}$ als de nuisance-klasse $\mathcal{G}$ . Als de nuisance-klasse "Donsker" is ( $\delta_{n,G} \lesssim n^{-1/4}$ ), wordt de oracle-snelheid behouden.

4. Belangrijkste Resultaten

Algemene Regret Bound (Theorema 3):
Onder een Bernstein-conditie en met een kritieke straal $\delta_n$ die voldoet aan $R_n(\text{star}(\mathcal{F}_\ell), \delta_n) \lesssim \delta_n^2$ , geldt met hoge waarschijnlijkheid:
$R(\hat{f}_n) - R(f_0) \lesssim \delta_n^2 + \frac{\log(1/\eta)}{n}$
Dit resulteert in de bekende snelheid $O(n^{-2\beta/(2\beta+1)})$ voor Sobolev/Hölder klassen met gladheid $\beta$ .
L2-Fout Bounds (Theorema 4):
Bij sterke convexiteit wordt de regret-bound direct vertaald naar een $L_2(P)$ -schatting: $\|\hat{f}_n - f_0\| \lesssim \delta_n$ .
Resultaten zonder Sample Splitting (Theorema 9 & Corollary 4):
Voor in-sample nuisance schatting geldt:
$\|\hat{f}_n - \hat{f}_0\|^2 \lesssim \delta_{n,F}^2 + (\delta_{n,G}^2 + \delta_{n,G}\varepsilon_{\text{nuis}})^{4\beta/(2\beta+1)}$
Als de nuisance-klasse voldoet aan de Donsker-conditie ( $\delta_{n,G} \lesssim n^{-1/4}$ ), domineert de eerste term en wordt de oracle-snelheid bereikt, zelfs zonder cross-fitting.

5. Significantie en Impact

Modulariteit: De paper biedt een "werkblauwdruk" die onderzoekers in staat stelt om regret-bounds voor nieuwe verliesfuncties en klassen systematisch af te leiden zonder elke keer de volledige empirische proces-theorie opnieuw te moeten herschrijven.
Brug tussen theorie en praktijk: Het combineert de generaliteit van lokale Rademacher-complexiteit met de praktische bruikbaarheid van entropie-integrale en maximale ongelijkheden.
Causale Inferentie en Nuisance: De behandeling van nuisance components, en specifiek de resultaten over in-sample schatting zonder sample splitting, is van groot belang voor moderne toepassingen in causale inferentie (bijv. Double Machine Learning, R-learners) waar sample splitting computatieel duur kan zijn of waar specifieke calibratieprocedures in-sample werken.
Technische Referentie: De appendix bevat uitgebreide bewijzen en technische lemmata (zoals uniforme lokale concentratie voor empirische inproducten) die direct toepasbaar zijn in andere analyses.

Kortom, deze gids consolideert geavanceerde technieken uit de empirische proces-theorie tot een coherent raamwerk dat zowel de klassieke ERM-resultaten verduidelijkt als nieuwe inzichten biedt voor complexe, moderne leerproblemen met storende variabelen.