Comparative e-backtests for general risk measures

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung des Papers, als würde man es einem Freund beim Kaffee erzählen – ohne komplizierte Formeln, aber mit ein paar guten Bildern.

Das große Problem: Wer ist der bessere Wettervorhersager?

Stellen Sie sich vor, Sie sind ein Bankmanager. Ihre Aufgabe ist es, das Risiko zu berechnen, dass die Bank morgen Geld verliert. Sie nutzen ein internes Computermodell, um diese Vorhersage zu treffen. Die Aufsichtsbehörde (die „Polizei" der Banken) sagt: „Zeig mir, dass dein Modell funktioniert!"

Bisher gab es zwei Arten, das zu prüfen:

Der Standard-Test: „Ist dein Modell überhaupt brauchbar?" (Wie ein Wetterbericht: Hat es geregnet, als du Regen vorhergesagt hast?)
Der Vergleichstest: „Ist dein Modell besser als das Standard-Modell der Behörde?" (Wie ein Wettkampf: Wer sagt das Wetter genauer voraus, dein Computer oder der alte Herr mit dem Barometer?)

Das Problem ist: Die alten Methoden waren wie ein statischer Fotoapparat. Sie machten ein Foto der Vergangenheit und sagten: „Alles gut" oder „Alles schlecht". Aber Finanzmärkte sind wie das Wetter: Sie ändern sich ständig. Was gestern funktionierte, kann heute katastrophal sein. Und wenn beide Modelle (Ihr und das der Behörde) Fehler machen, sagten die alten Tests oft nur: „Keiner von beiden ist perfekt" – ohne zu sagen, wer weniger falsch liegt.

Die neue Lösung: Der „E-Wert" als kontinuierlicher Wettkampf

Die Autoren dieses Papers (Zhanyi Jiao, Qiuqi Wang und Yimiao Zhao) haben eine neue Methode entwickelt, die sie „Comparative E-Backtests" nennen.

Stellen Sie sich das nicht als ein einzelnes Foto vor, sondern als einen Live-Fernsehwettkampf.

1. Die „E-Werte" sind wie Punkte im Wettkampf

In der alten Welt gab es den „p-Wert" (ein statistischer Wert, der oft missverstanden wird). Die Autoren nutzen stattdessen „E-Werte".

Die Analogie: Stellen Sie sich vor, Sie wetten auf einen Wettkampf zwischen zwei Sportlern (Ihr Modell vs. das Standard-Modell).
Ein E-Wert ist wie ein Wett-Ticket. Wenn Ihr Modell gut ist, gewinnt das Ticket an Wert. Wenn es schlecht ist, verliert es an Wert.
Der Clou: Sie können diesen Wettkampf jederzeit stoppen und schauen. Sie müssen nicht bis zum Ende des Jahres warten. Wenn Ihr Modell plötzlich viele Punkte verliert (weil die Märkte verrückt spielen), sehen Sie das sofort. Das nennt man „anytime-valid" (jederzeit gültig).

2. Der „Drei-Zonen-Ansatz" (Rot, Gelb, Grün)

Früher war die Antwort oft nur „Bestanden" oder „Durchgefallen". Die neuen Autoren sagen: „Es ist komplizierter." Sie haben ein Ampelsystem eingeführt:

Grüne Zone: Ihr Modell ist eindeutig besser als das Standard-Modell. (Sie gewinnen den Wettkampf klar.)
Rote Zone: Ihr Modell ist eindeutig schlechter. (Sie verlieren klar.)
Gelbe Zone: Das ist der spannende Teil! Beide Modelle machen Fehler, oder es ist unklar, wer besser ist.
- Die alte Methode hätte hier aufgehört.
- Die neue Methode schaut genauer hin: Sie vergleicht nicht nur, wer gewinnt, sondern wie schnell und wie stark.
- Analogie: Zwei Läufer laufen im Regen. Läufer A ist schneller, aber Läufer B hält sich besser im Gleichgewicht. Wer ist der „bessere" Läufer? Die neue Methode misst nicht nur, wer zuerst ins Ziel kommt, sondern auch, wie stabil der Lauf war. Sie nennen das „schwache Dominanz". Selbst wenn beide durch die rote Ampel laufen, kann man sagen: „Okay, beide haben Fehler gemacht, aber Modell A hat sich weniger blamiert als Modell B."

3. Robustheit gegen „Sturm und Stress"

Finanzdaten sind chaotisch. Es gibt Krisen (wie 2008 oder COVID-19), die wie ein plötzlicher Orkan sind.

Alte Modelle: Wenn ein Orkan kommt, brechen sie oft zusammen oder liefern falsche Signale.
Die neue Methode: Sie ist wie ein Schwimmer im Wellenbad. Wenn die Wellen (die Daten) plötzlich höher werden, passt sich der Schwimmer an. Wenn sich die Bedingungen ändern (z.B. eine neue Finanzkrise), kann man den Wettkampf einfach neu starten.
- Die Autoren zeigen, dass man den Wettkampf an bestimmten Punkten (z.B. nach einer Krise) zurücksetzen kann, um zu sehen, welches Modell sich nach der Krise besser erholt hat. Das ist wie ein Trainer, der sagt: „Okay, der erste Halbzeit war katastrophal. Vergessen wir das. Wer spielt in der zweiten Hälfte besser?"

Warum ist das wichtig?

Fairer Vergleich: Banken müssen ihre Modelle gegen die der Behörde beweisen. Diese Methode gibt eine viel genauere Antwort als ein einfaches „Ja/Nein".
Echtzeit-Entscheidungen: Da man den Test jederzeit stoppen kann, können Aufsichtsbehörden sofort eingreifen, wenn ein Modell in einer Krise versagt, statt monatelang auf einen Jahresbericht zu warten.
Keine Annahmen: Die Methode funktioniert, egal ob die Daten „normal" verteilt sind oder chaotisch. Sie braucht keine perfekten theoretischen Voraussetzungen.

Zusammenfassung in einem Satz

Die Autoren haben einen neuen, flexiblen Wettkampf entwickelt, bei dem man nicht nur am Ende schaut, wer gewonnen hat, sondern den Lauf live verfolgt, bei Stürmen nicht aufgibt und auch dann noch eine sinnvolle Bewertung abgibt, wenn beide Teilnehmer stolpern.

Das ist ein großer Schritt hin zu sichereren Banken und besseren Risikovorhersagen in einer unvorhersehbaren Welt.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des vorliegenden Papers auf Deutsch:

Titel: Comparative e-backtests for general risk measures (Vergleichende e-Backtests für allgemeine Risikomaße)

Autoren: Zhanyi Jiao, Qiuqi Wang, Yimiao Zhao
Datum: 6. März 2026

1. Problemstellung und Motivation

Die Rückprüfung (Backtesting) von Risikomaßen ist ein zentraler Bestandteil der Finanzregulierung. Traditionelle Backtests prüfen, ob ein Prognosemodell statistisch konsistent mit den beobachteten Verlusten ist (z. B. Kupiec- oder Christoffersen-Tests).

Das Paper identifiziert jedoch eine Lücke in der regulatorischen Praxis:

Begrenzung traditioneller Tests: Diese bewerten Modelle isoliert. In der Realität müssen Banken ihre internen Modelle jedoch oft im Vergleich zu regulatorischen Benchmark-Modellen validieren.
Unterschied zur Modellselektion: Im Gegensatz zur statistischen Modellselektion (die das beste Modell aus einer Menge sucht), geht es bei regulatorischen Backtests um eine asymmetrische Validierung: Erfüllt das interne Modell die Anforderungen im Vergleich zum Benchmark?
Herausforderungen: Finanzdaten weisen starke zeitliche Abhängigkeiten auf, und Modelle können falsch spezifiziert sein. Zudem erfordern regulatorische Entscheidungen oft sequenzielle Überwachung ("Anytime-validity"), da Daten kontinuierlich eintreffen.
Spezifische Schwierigkeit bei ES: Die Validierung des Expected Shortfall (ES) ist schwierig, da ES allein nicht "elicitierbar" (einholtbar) ist.

Das Ziel des Papers ist die Entwicklung eines modellfreien, sequenziellen Rahmens für vergleichende Backtests allgemeiner elicitabler Risikomaße unter Verwendung von e-Werten (e-values) und e-Prozessen.

2. Methodik

Die Autoren nutzen das Konzept der e-Werte (von Vovk und Wang eingeführt), die als nicht-negative Zufallsvariablen definiert sind, deren Erwartungswert unter der Nullhypothese $\le 1$ ist. Dies ermöglicht sequenzielle Tests ohne asymptotische Annahmen.

A. Theoretische Grundlagen

Elicitability und Identifizierbarkeit: Das Framework nutzt die Eigenschaften elicitabler Risikomaße (wie VaR, ES, Erwartungswerte, Varianz), die durch konsistente Scoring-Funktionen $S$ oder Identifikationsfunktionen $I$ charakterisiert werden können.
Standard-e-Backtests (Abschnitt 3): Zuerst werden e-Prozesse für Standard-Backtests konstruiert, die prüfen, ob ein Risikomaß $\rho$ unterschätzt wird ( $H_0: R_t \ge \rho(L_t|F_{t-1})$ ). Hier werden Identifikationsfunktionen genutzt, um e-Werte zu bilden.
Vergleichende Backtests (Abschnitt 4): Der Kern der Arbeit. Es werden zwei Hypothesen getestet:
- $H^-_0$ : Das interne Modell dominiert das Benchmark-Modell (bzw. ist mindestens so gut).
- $H^+_0$ : Das Benchmark-Modell dominiert das interne Modell.
- Die Tests basieren auf der Bedingung der bedingten S-Dominanz (im Gegensatz zur unbedingten Dominanz in älteren Arbeiten), was dynamische Veränderungen über die Zeit erfasst.

B. Konstruktion der e-Prozesse

Für zwei Prognoseprozesse (intern $R_t$ , Benchmark $R^*_t$ ) wird ein e-Prozess $M_t$ konstruiert:
$M_t = \prod_{s=1}^t (1 + \lambda_s (S(L_s, R_s) - S(L_s, R^*_s)))$
Dabei ist $\lambda_t$ ein "Wettprozess" (betting process), der so gewählt wird, dass der Term in der Klammer $\ge -1$ bleibt. Dies garantiert, dass $M_t$ ein Supermartingal unter der Nullhypothese ist.

C. Modifizierter Drei-Zonen-Ansatz (Modified Three-Zone Approach)

Da beide Nullhypothesen ( $H^-$ und $H^+$ ) gleichzeitig abgelehnt werden können (insbesondere bei sequenziellen Tests), schlagen die Autoren eine Erweiterung des klassischen Drei-Zonen-Ansatzes vor:

Grüne Zone: Nur $H^+$ wird abgelehnt $\rightarrow$ Internes Modell ist besser.
Rote Zone: Nur $H^-$ wird abgelehnt $\rightarrow$ Internes Modell ist schlechter.
Gelbe/Orange Zone: Beide werden abgelehnt. Hier wird das Konzept der schwachen Dominanz (Weak Dominance) eingeführt:
- Dominanz in der Magnitude: Welcher e-Prozess erreicht einen höheren Maximalwert?
- Dominanz in der Geschwindigkeit: Welcher e-Prozess durchbricht den Schwellenwert früher?
  Dies erlaubt auch in unsicheren Fällen ("Orange") eine differenzierte Aussage über die relative Leistung.

D. Fehlerkontrolle

Typ-I-Fehler: Durch die Martingal-Eigenschaft und Ville's Ungleichung wird der Typ-I-Fehler zu jedem beliebigen Stoppzeitpunkt kontrolliert.
Multiple Testing: Es werden Strategien zur Kontrolle der Fehlerrate bei mehreren Tests vorgeschlagen, einschließlich des Neustarts (Restart) der e-Prozesse bei strukturellen Brüchen oder nach Erreichen eines Schwellenwerts.

3. Wichtige Beiträge

Modellfreier sequenzieller Rahmen: Entwicklung eines Frameworks für vergleichende Backtests, das keine spezifische Verteilungsannahme für die Verluste benötigt und robust gegenüber Abhängigkeiten ist.
Allgemeine Anwendbarkeit: Das Verfahren gilt für eine breite Klasse von Risikomaßen, einschließlich Mittelwert, Varianz, Value-at-Risk (VaR), Expected Shortfall (ES) und Expectiles.
Konstruktion von e-Werten für identifizierbare Maße: Theoretische Charakterisierung von e-Werten für Standard-Backtests identifizierbarer Risikomaße (Theorem 1 & 2).
Neue Interpretation bei Gleichzeitiger Ablehnung: Einführung des Konzepts der "schwachen Dominanz" (Magnitude und Geschwindigkeit), um auch in Fällen, in denen beide Hypothesen abgelehnt werden, informative Schlussfolgerungen zu ziehen.
Praktische Implementierung: Detaillierte Algorithmen für die Wahl des Wettprozesses $\lambda_t$ (basierend auf der GREL-Methode von Wang et al., 2025) und Anwendung auf reale Daten.

4. Ergebnisse

Simulationen (Abschnitt 6)

Standard-Backtests: Die Methode zeigt hohe Sensitivität bei der Erkennung von Unterschätzungen von VaR und ES.
Vergleichende Backtests (i.i.d.): Die Tests kontrollieren den Typ-I-Fehler streng und zeigen hohe Power, um Modelle mit klarer Dominanz zu unterscheiden.
Zeitreihen (AR(1)-GARCH):
- Bei simulierten Daten mit schiefen Verteilungen (skewed-t) schneiden parametrische Modelle, die falsche Verteilungen annehmen (z.B. Normalverteilung), schlecht ab.
- Nicht-parametrische (FHS) und semi-parametrische (EVT) Methoden zeigen sich robuster.
- Der modifizierte Drei-Zonen-Ansatz liefert auch in Fällen, in denen traditionelle p-Wert-Tests zu "inklusiven" (nicht ablehnenden) Ergebnissen kommen, klare Aussagen durch die Analyse der e-Prozess-Dynamik.
Strukturelle Brüche: Das Framework passt sich erfolgreich an strukturelle Änderungen an (z.B. Wechsel der Volatilitätsparameter), insbesondere wenn die e-Prozesse an den Bruchpunkten neu gestartet werden.

Empirische Analyse (Abschnitt 7)

Daten: NASDAQ Composite Index (2003–2025).
Beobachtungen:
- Während der Finanzkrise 2008 und der COVID-19-Pandemie zeigten die e-Prozesse starke Wachstumsraten, was auf signifikante Unterschiede in der Modellleistung hindeutet.
- Die Dominanzverhältnisse änderten sich dynamisch über die Zeit (z.B. dominierte ein parametrisches Modell vor der Krise, ein nicht-parametrisches danach).
- Das Verfahren liefert auch bei komplexen Marktschocks differenzierte Einblicke, wo traditionelle Tests oft versagen oder keine klaren Signale geben.

5. Bedeutung und Fazit

Das Paper stellt einen bedeutenden Fortschritt in der Finanzregulierung dar, indem es:

Anytime-Validität bietet: Regulatoren können Modelle kontinuierlich überwachen, ohne das Signifikanzniveau durch wiederholtes Testen zu verletzen.
Robustheit gegenüber Modellfehlern und Abhängigkeiten gewährleistet.
Eine differenziertere Entscheidungsgrundlage liefert als traditionelle p-Wert-Tests, insbesondere durch die Nutzung der e-Prozess-Dynamik (Magnitude und Geschwindigkeit) in unsicheren Szenarien.

Die vorgeschlagene Methode ist besonders relevant für Banken und Aufsichtsbehörden, da sie eine dynamische, datengetriebene Validierung interner Risikomodelle ermöglicht, die sich an verändernde Marktbedingungen anpasst. Die Autoren betonen, dass regulatorische Backtests konzeptionell von der allgemeinen Modellselektion zu trennen sind und spezifische, asymmetrische Anforderungen erfüllen müssen, die dieses Framework adressiert.