Comparative e-backtests for general risk measures

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een veiligheidsinspecteur bent voor een grote bank. Je taak is om te controleren of de risicoberekeningen van de bank (hun "interne model") betrouwbaar zijn. Als de bank zegt: "We hebben maar een klein risico", moet jij weten of dat waar is of dat ze liegen.

Vroeger was dit een beetje als een zwarte doos: je keek alleen of de bank's voorspelling klopte met wat er daadwerkelijk gebeurde. Maar in de echte wereld is het ingewikkelder. Banken vergelijken hun modellen vaak met een "standaardmodel" van de toezichthouder. De vraag is dan niet alleen: "Is dit model goed?", maar: "Is dit model beter dan het standaardmodel?"

Dit papier introduceert een nieuwe, slimme manier om die vergelijking te maken, genaamd "E-backtesting". Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "P-waarde" is een statische foto

Traditionele methoden gebruiken iets dat een p-waarde heet. Stel je dit voor als een foto van een momentopname.

Je neemt een foto van de resultaten na een jaar.
Als de foto er slecht uitziet, zeg je: "Gevonden! Het model is fout."
Het nadeel: Als je tussendoor kijkt (bijvoorbeeld elke maand), mag je die foto niet meer gebruiken. Je moet wachten tot het einde. En als er een crisis komt (zoals in 2008 of tijdens COVID), werkt de oude methode vaak niet meer omdat de regels van het spel plotseling veranderen.

2. De Oplossing: De "E-waarde" als een levende thermometer

De auteurs van dit papier gebruiken iets nieuws: E-waarden (e-values).
Stel je dit voor als een levende thermometer of een speelgoed-schakelaar die je continu kunt bijhouden.

Je begint met een waarde van 1.
Elke dag die de bank een voorspelling doet, kijk je of het klopt.
Als het model goed is, blijft de thermometer stabiel.
Als het model fout is, stijgt de thermometer.
Het grote voordeel: Je mag op elk moment kijken! Als de thermometer op een bepaald punt (bijvoorbeeld 5 of 10) uit de bol gaat, weet je direct: "Stop! Dit model is niet goed." Je hoeft niet te wachten tot het einde van het jaar. Dit heet "altijd geldige inferentie" (anytime-valid inference).

3. De Vergelijking: Wie is de beste speler?

In dit papier vergelijken ze twee spelers:

De Interne Speler: Het model van de bank.
De Standaard Speler: Het model van de toezichthouder.

Ze spelen een spelletje waarbij ze wedden op wie de beste voorspellingen doet.

Als de Interne Speler wint, stijgt de "Interne Thermometer".
Als de Standaard Speler wint, stijgt de "Standaard Thermometer".

4. De "Drie-Kleuren Zone" (Het nieuwe idee)

Vroeger was het resultaat simpel: "Goed" of "Slecht". Maar de auteurs zeggen: "Het is vaak grijs." Ze introduceren een verkeerslichtsysteem met een extra kleur:

🟢 Groen: De Interne Speler wint duidelijk. Het model is goed.
🔴 Rood: De Standaard Speler wint duidelijk. Het model van de bank is slecht.
🟡 Geel: Niemand wint duidelijk. Beide modellen doen het even slecht, of het is onduidelijk.
🟠 Oranje (Het nieuwe idee): Dit is het slimme stukje. Soms wint de Interne Speler op de snelheid (hij wint sneller dan de ander), maar de Standaard Speler wint op de kracht (hij wint met een grotere marge).
- Analogie: Stel je een renwedstrijd voor. De ene renner start sneller (snelheid), maar de andere heeft meer uithoudingsvermogen (kracht). De Oranje zone zegt: "Kijk goed uit, het is een spannende strijd, maar we kunnen nog wel een oordeel vellen op basis van wie er nu het beste presteert."

5. Waarom is dit zo handig? (De "Structuurveranderingen")

Financiële markten zijn als het weer. Soms is het zonnig, soms is er een orkaan.

Oude methode: Als er een orkaan komt, breekt je meetinstrument en weet je niets meer.
Nieuwe methode: Omdat je de "thermometer" continu kunt resetten, kun je zeggen: "Oké, de orkaan is voorbij, laten we de thermometer op nul zetten en opnieuw beginnen."
- Dit betekent dat je kunt zien welk model het beste werkt tijdens een crisis en welk model het beste werkt in rustige tijden. Het ene model kan super zijn in normale tijden, maar faalt tijdens een crash. De andere doet het juist goed in chaos.

Samenvatting in één zin

Dit papier biedt toezichthouders en banken een slimme, levende thermometer die je continu kunt aflezen om te zien welk risicomodel het beste presteert, zelfs als de markt in paniek raakt, zonder dat je hoeft te wachten tot het einde van het jaar.

Het is alsof je van een statische foto van een race overgaat naar een live-stream waar je precies ziet wie er op dat moment de leiding heeft, zelfs als de raceplaatse verandert.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Comparative e-backtests for general risk measures" van Jiao, Wang en Zhao, geschreven in het Nederlands.

Titel: Comparatieve e-backtests voor algemene risicomaatstaven

1. Het Probleem

Risicobeheer en financiële regulering zijn afhankelijk van het nauwkeurig voorspellen van risicomaatstaven zoals Value-at-Risk (VaR) en Expected Shortfall (ES). Traditionele "backtests" evalueren of een voorspellend model statistisch consistent is met waargenomen verliezen (bijv. Kupiec, 1995; Christoffersen, 1998). Echter, in de praktijk vereisen regulatoren vaak dat interne modellen worden geëvalueerd relatief tot een standaard-benchmarkmodel, niet geïsoleerd.

Er zijn twee hoofdproblemen met bestaande methoden:

Beperkte vergelijking: Standaard backtests kunnen niet bepalen of een intern model beter presteert dan een door de regulator voorgeschreven benchmark.
Statistische beperkingen: Veel bestaande vergelijkende tests (zoals die gebaseerd op p-waarden) zijn niet robuust bij modelmisspecificatie, vereisen asymptotische aannames en zijn niet geldig bij continue monitoring van sequentiële data. Bovendien is ES op zichzelf niet "eliciteerbaar" (niet direct voorspelbaar via een scorefunctie), wat de testbaarheid bemoeilijkt.

2. Methodologie

De auteurs ontwikkelen een modelvrij, sequentieel raamwerk voor comparatieve backtests gebaseerd op e-waarden (e-values) en e-processen.

E-waarden en E-processen: In plaats van p-waarden gebruiken ze e-waarden, die non-negatieve stochastische variabelen zijn met een verwachte waarde $\leq 1$ onder de nulhypothese. Een e-proces is een supermartingaal dat continu kan worden bijgewerkt naarmate nieuwe data binnenkomt, zonder dat de Type-I foutkans toeneemt ("anytime-valid inference").
Elicitability en Identificatie: De methode maakt gebruik van de eigenschappen van elicitability (de mogelijkheid om een risicomaatstaf te minimaliseren via een scorefunctie) en identificability (de mogelijkheid om een risicomaatstaf te vinden via een identificatiefunctie). Dit maakt de methode toepasbaar op een breed scala aan maatstaven, waaronder het gemiddelde, variantie, VaR, ES en expectiles.
Sequentiële Testen: De auteurs construeren e-processen die de cumulatieve bewijskracht meten over de tijd. Als het e-proces een drempelwaarde (bijv. $1/\alpha$) overschrijdt, wordt de nulhypothese verworpen.
Vergelijkende Hypothesen: Voor twee modellen (intern $R_t$ $R_{t}$ en standaard $R^*_t$ $R_{t}^{*}$ ) worden twee hypotheses getest:
- $H^-_0$ : Het interne model domineert het standaardmodel (lage fouten).
- $H^+_0$ : Het standaardmodel domineert het interne model.
GEBEL (Growth-rate for Empirical Losses): Om de "betting process" ( $\lambda_t$ ) te kiezen die de groei van het e-proces optimaliseert, gebruiken ze de GREL-methode, die asymptotisch optimaal is onder i.i.d. omstandigheden.

3. Belangrijkste Bijdragen

Het artikel biedt vier fundamentele bijdragen:

Modelvrij Sequentieel Raamwerk: Een nieuwe methode voor comparatieve backtests van eliceerbare risicomaatstaven die geldig is onder afhankelijkheid en modelmisspecificatie.
Gecombineerde "Three-Zone" Benadering: De auteurs introduceren een gewijzigde drie-zone-aanpak voor wanneer beide hypothesen ( $H^-$ $H^{-}$ en $H^+$ $H^{+}$ ) tegelijkertijd worden verworpen (een situatie die vaak voorkomt bij strenge conditionele dominantie). Ze definiëren zwakke dominantie (weak dominance) in twee vormen:
- Magnitude: Welk e-proces bereikt de hoogste piek?
- Snelheid: Welk e-proces overschrijdt de drempel het snelst?
  Dit resulteert in vier zones: Groen (intern wint), Rood (intern verliest), Geel (geen duidelijke winnaar), en Oranje (beide verworpen, maar één domineert zwak in magnitude of snelheid).
Technische Constructie: Ze construeren standaard e-backtests voor identificeerbare risicomaatstaven en karakteriseren de bijbehorende e-waarden en e-processen.
Toepasbaarheid: De methoden zijn breed toepasbaar op VaR, ES, expectiles en combinaties daarvan, inclusief de behandeling van Bayes-paren (zoals VaR en ES samen).

4. Resultaten

De auteurs valideren hun methode via simulaties en empirische analyses:

Simulaties (i.i.d. en tijdsreeksen):
- De methode controleert de Type-I fout nauwkeurig, zelfs bij continue monitoring.
- Bij vergelijking van modellen met duidelijke dominantie (bijv. een goed gespecificeerd model vs. een verkeerd gespecificeerd model) levert de e-test hoge afwijzingspercentages op.
- In tijdsreeks-scenario's (AR(1)-GARCH met scheve-t verdelingen) presteren semiparametrische en niet-parametrische methoden (zoals EVT en FHS) beter dan volledig parametrische methoden wanneer de data-structuur niet overeenkomt met de aannames.
- De methode kan structurele breuken (zoals tijdens een financiële crisis) detecteren. Door het e-proces te herstarten bij structurele veranderingen, kan de test adaptief bepalen welk model in welke periode beter presteert.
Empirische Analyse (NASDAQ):
- Toepassing op de NASDAQ Composite Index (2003-2025) toont aan dat de relatieve prestatie van modellen verandert tijdens markturmoil (Financiële Crisis 2008, COVID-19).
- Waar traditionele tests vaak inconclusief zijn (geen enkele hypothese wordt verworpen), biedt de e-test via de "zwakke dominantie" (oranjeregio) nuttige inzichten over welke methode relatief sterker is.
- De resultaten tonen aan dat er geen universele "beste" methode is; de superioriteit verschuift afhankelijk van de marktcondities.

5. Betekenis en Conclusie

Deze paper biedt een krachtig alternatief voor traditionele p-waarde gebaseerde backtests in de financiële regulering.

Robuustheid: De methode is niet afhankelijk van specifieke verdelingsaannames en werkt onder sequentiële monitoring.
Informatieve Uitkomsten: Door het gebruik van e-processen en de concepten van magnitude en snelheid, kunnen regulators zelfs in complexe situaties (waar beide modellen "falen" volgens strikte criteria) toch een gefundeerde beslissing nemen over welk model relatief beter presteert.
Praktische Toepassing: De aanpak is direct toepasbaar voor banken en toezichthouders om interne modellen te valideren tegen benchmarks, met name in dynamische marktomstandigheden waar risicoprofielen snel veranderen.

Kortom, de auteurs transformeren het probleem van modelselectie in een strikt regulatoir validatieprobleem, waarbij sequentiële validiteit en robuustheid centraal staan.

Comparative e-backtests for general risk measures

1. Het Probleem: De "P-waarde" is een statische foto

2. De Oplossing: De "E-waarde" als een levende thermometer

3. De Vergelijking: Wie is de beste speler?

4. De "Drie-Kleuren Zone" (Het nieuwe idee)

5. Waarom is dit zo handig? (De "Structuurveranderingen")

Samenvatting in één zin

Titel: Comparatieve e-backtests voor algemene risicomaatstaven

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Normal Approximation in Large Network Models

Robust Estimation of Polychoric Correlation

Bayesian Evidence Synthesis for Modeling SARS-CoV-2 Transmission

Convergence and complexity of block majorization-minimization for constrained block-Riemannian optimization

Bias- and Variance-Aware Probabilistic Rounding Error Analysis for Floating-Point Arithmetic