ForeComp: An R Package for Comparing Predictive Accuracy Using Fixed-Smoothing Asymptotics

Each language version is independently generated for its own context, not a direct translation.

ForeComp: Der neue Schiedsrichter für Vorhersagen

Stellen Sie sich vor, Sie sind ein Sportkommentator. Zwei Teams – nennen wir sie Team A und Team B – versuchen vorherzusagen, wie sich die Wirtschaft entwickeln wird. Team A sagt: „Im nächsten Quartal wird das BIP um 2 % steigen." Team B sagt: „Nein, nur um 1,5 %."

Am Ende des Quartals schauen wir auf die Realität. Wer lag näher dran? Das ist die Aufgabe des ForeComp-Papiers. Es stellt ein neues Werkzeug (ein R-Paket) vor, das hilft, den wahren Gewinner zu ermitteln, ohne sich von statistischen Tricks täuschen zu lassen.

1. Das Problem: Der alte Richter ist oft unfair

Früher nutzten Wissenschaftler eine Standard-Methode (den sogenannten Diebold-Mariano-Test), um zu entscheiden, welches Team besser war. Man kann sich das wie einen Richter vorstellen, der nur auf die Durchschnittsleistung schaut.

Das Problem: In der realen Welt sind Vorhersagen nicht isoliert. Wenn Team A heute einen Fehler macht, macht es morgen vielleicht auch einen ähnlichen Fehler. Diese Fehler hängen miteinander zusammen (wie eine Kette von Dominosteinen).

Der alte Richter ignoriert diese Kettenreaktion oft, besonders wenn man nur wenige Daten hat (z. B. nur 40 Quartale). Das führt dazu, dass der Richter manchmal schreit: „Team A ist besser!", obwohl es eigentlich nur ein Zufall war. Er ist zu leichtgläubig und urteilt zu oft zu früh (in der Statistik nennt man das „Über-Verwerfen").

2. Die Lösung: Der neue, geduldigere Richter (ForeComp)

Das Papier stellt ForeComp vor. Das ist wie ein neuer, moderner Richter, der zwei Dinge anders macht:

Er schaut weiter zurück: Statt nur die letzten paar Fehler zu zählen, betrachtet er einen längeren Zeitraum, um die „Kettenreaktion" der Fehler wirklich zu verstehen.
Er ist vorsichtiger: Er weiß, dass bei kleinen Datenmengen die Unsicherheit groß ist. Deshalb zieht er die Messlatte für einen Sieg etwas höher. Er sagt nicht sofort „Gewonnen!", sondern prüft zweimal, ob der Unterschied wirklich echt ist.

Das Paket bietet verschiedene Methoden für diesen Richter an, aber die wichtigste Botschaft ist: Vertraue nicht dem ersten, schnellen Urteil, besonders wenn du wenig Daten hast.

3. Das besondere Werkzeug: Die „Bandbreiten-Waage"

Eines der coolsten Features von ForeComp ist eine Visualisierung namens „Plot Tradeoff".

Stellen Sie sich eine Waage vor. Auf der einen Seite liegt Genauigkeit (wir wollen sicher sein, dass wir keinen falschen Gewinner küren). Auf der anderen Seite liegt Macht (wir wollen den echten Gewinner auch wirklich finden, wenn er da ist).

Wenn Sie die Waage zu sehr zur „Genauigkeit" neigen, verpassen Sie vielleicht echte Gewinner (zu vorsichtig).
Wenn Sie sie zur „Macht" neigen, krönen Sie vielleicht falsche Gewinner (zu ungeduldig).

Das Plot Tradeoff-Diagramm zeigt Ihnen genau, wie sich die Entscheidung ändert, wenn Sie die Waage ein wenig verschieben. Es sagt Ihnen: „Hey, bei dieser Einstellung gewinnt Team A, aber wenn Sie die Waage nur ein winziges Stück anders drehen, gewinnt plötzlich Team B."

Das hilft dem Nutzer zu erkennen: „Oh, mein Ergebnis ist sehr fragil. Ich sollte vorsichtig sein." Oder: „Egal wie ich die Waage drehe, Team A gewinnt immer. Das ist ein stabiles Ergebnis."

4. Was die Tests gezeigt haben (Die Ergebnisse)

Die Autoren haben das neue Werkzeug an echten Daten getestet (Prognosen von Wirtschaftsexperten für die USA).

Das alte Verfahren sagte oft: „Da ist ein signifikanter Unterschied!" (Wir haben einen Gewinner!).
Das neue ForeComp-Verfahren sagte oft: „Moment mal, bei genauerem Hinsehen ist der Unterschied gar nicht so sicher."

In vielen Fällen, besonders bei kurzen Zeiträumen, stellte sich heraus, dass die alten Methoden zu viele „Siegfeiern" veranstaltet haben, die eigentlich nicht verdient waren. Die neuen Methoden (Fixed-Smoothing) halten die Ergebnisse stabiler und zuverlässiger.

Zusammenfassung in einem Satz

ForeComp ist wie ein neuer, weiser Schiedsrichter für Vorhersagen, der verhindert, dass wir bei kleinen Datenmengen falsche Gewinner krönen, und uns hilft zu verstehen, wie stark unsere Ergebnisse wirklich sind, indem er uns zeigt, wie empfindlich sie auf kleine Änderungen reagieren.

Es ist ein Werkzeug für alle, die wissen wollen: „Ist mein Vorhersagemodell wirklich besser, oder habe ich nur Glück gehabt?"

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „ForeComp: An R Package for Comparing Predictive Accuracy Using Fixed-Smoothing Asymptotics" auf Deutsch:

1. Problemstellung

Der Vergleich der Vorhersagegenauigkeit konkurrierender Prognosen ist eine fundamentale Aufgabe in der empirischen Ökonomie und Finanzwirtschaft. Der Standardtest hierfür ist der Diebold-Mariano (DM) Test (1995), der prüft, ob die erwartete Differenz der Verluste (Loss Differential) zwischen zwei Prognosen null ist.

Das Hauptproblem bei der Anwendung des DM-Tests in endlichen Stichproben (insbesondere bei kleinen Evaluierungsstichproben) ist eine verzerrte Testgröße (Size Distortion). Dies führt dazu, dass der Nullhypothese (gleiche Vorhersagegenauigkeit) zu oft widersprochen wird (Überablehnung).

Ursache: Die Verzerrung entsteht durch die Schätzung der Langfristvarianz (Long-Run Variance) der Verlustdifferenzen. Der ursprüngliche DM-Ansatz nutzt oft einen rechteckigen Kernel mit einer Truncation bei $h-1$ Lags (wobei $h$ der Prognosehorizont ist). In der Praxis weisen Verlustdifferenzen jedoch oft Serialkorrelationen auf, die über diesen Horizont hinausgehen (z. B. durch suboptimale Prognosen oder Parameterschätzung).
Folge: Die Wahl der Bandbreite (Bandwidth) für die Varianzschätzung beeinflusst das Testergebnis stark. Herkömmliche Methoden mit normaler Approximation versagen oft in kleinen Stichproben, da sie die Unsicherheit der Varianzschätzung nicht korrekt berücksichtigen.

2. Methodik und Der ForeComp-Paket

Die Autoren stellen ForeComp, ein R-Paket, vor, das einen einheitlichen Schnittstellen-Ansatz für verschiedene Testverfahren bietet. Es unterscheidet zwischen klassischen Verfahren und solchen, die auf Fixed-Smoothing-Asymptotik basieren.

A. Implementierte Testverfahren (Tabelle 1)

Das Paket integriert folgende Methoden:

Standard-Verfahren:
- DM-R: Originaler DM-Test mit rechteckigem Kernel und $M = h-1$ .
- DM-M: Modifizierter DM-Test (Harvey et al., 1997) mit Bias-Korrektur und $t$ -Verteilung.
- DM-NW: Bartlett-Kernel mit Newey-West-Bandbreite und normaler Approximation.
Fixed-Smoothing-Verfahren (Neuheiten im Paket):
- DM-FB: Bartlett-Kernel mit Fixed- $b$ -Asymptotik (Kiefer & Vogelsang, 2005). Hier bleibt das Verhältnis $b = M/P$ konstant, wenn $P \to \infty$ . Die kritischen Werte werden an die Bandbreite angepasst (nicht-standardisierte Verteilung).
- DM-EWC: Equal-Weighted Cosine Estimator (Lazarus et al., 2018), ein orthogonaler Reihen-Schätzer für die Langfristvarianz, der einer $t_B$ -Verteilung folgt.
- DM-WPE: Weighted Periodogram Estimator mit Daniell-Kernel und Fixed- $m$ -Asymptotik (Sun, 2013), folgt einer $t_{2m}$ -Verteilung.
- DM-IM: Ibragimov-Müller-Test (Clustering-Ansatz), der keine explizite Langfristvarianzschätzung benötigt, sondern die Stichprobe in Blöcke unterteilt.

B. Visualisierung: Plot Tradeoff

Ein zentrales Feature des Pakets ist die Funktion Plot_Tradeoff. Sie visualisiert den Zielkonflikt zwischen Größenverzerrung (Size Distortion) und Verlust an Power über einen Bereich von Bandbreiten.

Sie zeigt, bei welchen Bandbreiten die Nullhypothese verworfen wird.
Sie hilft Anwendern zu erkennen, ob ein Ergebnis robust ist oder nur durch eine spezifische (und möglicherweise willkürliche) Bandbreitenwahl zustande kommt.

3. Wichtige Beiträge

Einheitliche Schnittstelle: ForeComp konsolidiert klassische und moderne Fixed-Smoothing-Methoden in einem einzigen R-Paket, was den Vergleich verschiedener Ergebnisse erleichtert.
Diagnostisches Werkzeug: Die Plot_Tradeoff-Funktion bietet eine visuelle Diagnose für die Empfindlichkeit gegenüber der Bandbreitenwahl, was in der Praxis oft vernachlässigt wird.
Empirische Validierung: Das Paket wird anhand von Anwendungen auf Daten des Survey of Professional Forecasters (SPF) demonstriert, einschließlich Replikationen bekannter Studien (Stark, 2010; Coroneo & Iacone, 2020).
Monte-Carlo-Studie: Eine umfassende Simulation (basierend auf McCracken, 2019) untersucht die endlichen Stichprobeneigenschaften (Größe und Power) der verschiedenen Verfahren.

4. Ergebnisse

A. Empirische Anwendungen (SPF-Daten)

In der Replikation von Stark (2010) zeigt das Paket, dass die SPF-Prognosen die „No-Change"-Benchmark konsistent übertreffen.
In der Anwendung auf Coroneo und Iacone (2020) wird gezeigt, dass Standard-Tests (Normal-Approximation) in kleinen Stichproben (z. B. $T=40$ ) häufig signifikante Ergebnisse liefern, die bei Fixed-Smoothing-Verfahren (DM-FB, DM-WPE) verschwinden. Dies deutet darauf hin, dass die Ablehnungen der Standardtests oft auf Größenverzerrungen zurückzuführen sind und nicht auf echte Überlegenheit der Prognosen.

B. Monte-Carlo-Simulationsergebnisse

Die Simulationen bestätigen die theoretischen Erwartungen:

Größe (Size): In kleinen Stichproben ( $P=75$ ) neigen Standardverfahren (DM-R, DM-NW) zu massiver Überablehnung (z. B. 16% statt 5% bei langen Horizonten).
Fixed-Smoothing-Verfahren: Methoden wie DM-FB und DM-EWC halten die nominale Größe (5%) auch in kleinen Stichproben sehr gut ein.
Power: Nach Korrektur der Größenverzerrung (Size-Corrected Power) verlieren die Fixed-Smoothing-Verfahren keine signifikante Power im Vergleich zu den Standardverfahren. Im Gegenteil, sie sind oft sogar leistungsfähiger, da sie die Varianzschätzung robuster handhaben.
Kern-Erkenntnis: Die Verbesserung der Größenkontrolle durch Fixed-Smoothing-Asymptotik geht nicht mit einem Power-Verlust einher. Der Vorteil liegt in der Kombination aus großer Bandbreite und angepassten kritischen Werten.

5. Bedeutung und Fazit

Das Paper unterstreicht, dass die traditionelle Normal-Approximation für den Vergleich von Prognosen in kleinen Stichproben (ein häufiges Szenario in der Makroökonomie) unzuverlässig ist.

Empfehlung: Die Autoren empfehlen dringend die Verwendung von Fixed-Smoothing-Verfahren (insbesondere DM-FB und DM-EWC) für die praktische Anwendung.
Robustheit: Die Nutzung der Plot_Tradeoff-Diagnose ermöglicht es Forschern, fundierte Entscheidungen über die Bandbreite zu treffen und sicherzustellen, dass ihre Schlussfolgerungen nicht von der Wahl eines einzelnen Parameters abhängen.
Praktischer Nutzen: ForeComp macht diese fortgeschrittenen, aber leicht zu implementierenden Methoden für die breite Gemeinschaft der Ökonomen zugänglich und fördert robustere Schlussfolgerungen in der Prognoseforschung.

Zusammenfassend bietet ForeComp ein essenzielles Werkzeug, um die Zuverlässigkeit von Prognosevergleichen zu erhöhen, indem es die statistischen Fallstricke kleiner Stichproben durch moderne asymptotische Theorien überwindet.