Forecast collapse of transformer-based models under squared loss in financial time series

Each language version is independently generated for its own context, not a direct translation.

Warum die „Super-Intelligenzen" an der Börse scheitern: Eine Erklärung

Stellen Sie sich vor, Sie versuchen, das Wetter von morgen vorherzusagen.

Szenario A: Sie schauen auf den Himmel, sehen Wolken, messen den Wind und nutzen ein hochkomplexes Computermodell. Das funktioniert gut, weil das Wetter Muster hat (Wolken ziehen, Regen folgt).
Szenario B: Sie versuchen, das Wetter vorherzusagen, indem Sie auf eine Münze werfen. Jedes Ergebnis ist völlig zufällig und hat nichts mit dem vorherigen zu tun.

Die neue Studie von Pierre Andreoletti zeigt, dass Transformer-Modelle (die „Super-Intelligenzen" der KI, die auch in Chatbots stecken) im Szenario B nicht nur versagen, sondern aktiv schlechter werden als ein einfacher Mensch, der nur auf die Münze schaut.

Hier ist die Geschichte dahinter, erklärt mit einfachen Bildern:

1. Das Ziel: Der „perfekte Durchschnitt"

Wenn eine KI lernt, Aktienkurse vorherzusagen, versucht sie, den Durchschnitt aller möglichen zukünftigen Kurse zu erraten, basierend auf dem, was sie heute sieht.

Bei Wetter oder Stromverbrauch gibt es einen echten Durchschnitt, der von der Vergangenheit abhängt (z. B. „Im Winter ist es kalt"). Die KI kann diesen Durchschnitt lernen und wird immer besser.
Bei Aktien (nach der Theorie des „Effizienten Marktes") ist die Zukunft jedoch wie ein Münzwurf. Wenn der heutige Kurs 100 € ist, ist der beste Schätzwert für morgen genau 100 €. Es gibt keine versteckte Tendenz nach oben oder unten, die man aus der Vergangenheit ablesen kann. Der „perfekte Durchschnitt" ist also eine flache Linie.

2. Das Problem: Wenn die KI zu clever wird

Stellen Sie sich vor, Sie haben einen Schüler, der extrem gut darin ist, Muster zu erkennen (das ist die Transformer-KI).

Der einfache Schüler (Lineares Modell): Er sagt: „Der Kurs war gestern 100, also sage ich 100 für morgen." Das ist fast immer richtig, weil es der beste Durchschnitt ist.
Der überforderte Super-Schüler (Transformer): Er sieht die Daten und denkt: „Ich muss so viel lernen wie möglich! Ich muss jede winzige Schwankung, jedes Zittern im Kurs verstehen!"

Da es in den Aktienkursen aber keine echten Muster gibt, sondern nur Rauschen (Zufall), fängt der Super-Schüler an, das Rauschen zu interpretieren. Er glaubt, ein zufälliges Zittern sei ein wichtiges Signal.

3. Die Analogie: Der Tänzer auf dem Eis

Stellen Sie sich einen Tänzer vor, der auf einer sehr glatten Eisfläche tanzt.

Die einfache Vorhersage ist wie ein Tänzer, der einfach an einem Punkt steht und wartet. Da das Eis glatt ist und der Tänzer nicht weiß, wohin er gehen soll, bleibt er stehen. Das ist die korrekte Antwort: „Ich weiß es nicht, also bleibe ich wo ich bin."
Der Transformer ist wie ein Tänzer, der versucht, die winzigsten Vibrationen des Eises zu spüren und darauf zu reagieren. Da das Eis aber nur zufällig vibriert (das Rauschen), fängt der Tänzer an, wild umherzuspringen, zu zucken und unnötige Sprünge zu machen.
Das Ergebnis: Der einfache Tänzer bleibt ruhig und macht keine Fehler (außer dem unvermeidlichen Zufall). Der wilde Tänzer macht riesige, unnötige Sprünge und stolpert viel öfter.

Die Studie zeigt: Je komplexer und ausdrucksstärker das Modell ist, desto mehr „falsche Sprünge" (Varianz) macht es, weil es versucht, aus dem Zufall ein Muster zu machen.

4. Was die Zahlen sagen (Der EUR/USD-Test)

Der Autor hat diese Theorie mit echten Daten getestet (Euro-Dollar-Kurse im 30-Sekunden-Takt).

Er verglich ein einfaches lineares Modell (das „stehende" Modell) mit einem modernen Transformer-Modell (dem „wild springenden" Modell).
Das Ergebnis: Das Transformer-Modell machte in 92 % der Fälle größere Fehler als das einfache Modell.
Es war nicht so, dass das Transformer-Modell manchmal genial war und manchmal dumm. Es war systematisch ungenauer, weil es durch seine Komplexität das zufällige Rauschen der Kurse in falsche Vorhersagen umwandelte.

5. Die große Erkenntnis

Das ist keine Schwäche der KI-Architektur (es ist nicht, dass die Transformer „schlecht programmiert" sind). Es ist eine mathematische Notwendigkeit.

Wenn die Zukunft wirklich zufällig ist (wie bei Aktien), dann ist die beste Vorhersage immer die, die nichts Neues behauptet (der aktuelle Preis).

Wenn man ein riesiges, komplexes Netzwerk darauf trainiert, diese „langweilige" Wahrheit zu lernen, wird es nicht besser.
Stattdessen beginnt es, das Rauschen der Trainingsdaten auswendig zu lernen. Es merkt sich: „Aha, in der Trainingszeit war da mal ein kleiner Sprung nach oben, also muss ich das auch vorhersagen!" Aber dieser Sprung war nur Zufall.

Fazit:
In der Finanzwelt ist „mehr Intelligenz" nicht immer besser. Wenn es nichts zu lernen gibt (weil die Märkte effizient sind), führt mehr Komplexität nur zu mehr Lärm. Die KI wird nicht zum Propheten, sondern zum Hysteriker, der aus jedem zufälligen Niesen ein Weltuntergangsszenario macht.

Die Studie warnt davor, einfach immer größere und komplexere KI-Modelle auf Finanzdaten zu werfen, in der Hoffnung, dass sie das „Geheimnis" knacken. Oft ist die beste Strategie einfach: Nicht zu viel tun.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert ein weit verbreitetes Phänomen im maschinellen Lernen für Finanzzeitreihen: Trotz ihrer hohen Ausdruckskraft (Expressivität) neigen Transformer-basierte Modelle (wie Informer, Autoformer, PatchTST) dazu, bei der Vorhersage von Finanzdaten (z. B. Aktienkurse oder Wechselkurse) zu „kollabieren".

Beobachtung: Anstatt nützliche Vorhersagen zu treffen, konvergieren diese Modelle oft zu trivialen Dynamiken:
- Bei Preisen bleibt die Vorhersage nahe am letzten beobachteten Wert (flache Linie).
- Bei Renditen konzentriert sich die Vorhersage nahe Null.
Herausforderung: Bisherige Erklärungen waren oft heuristisch (z. B. geringer Signal-zu-Rausch-Verhältnis, Nicht-Stationarität, Datenmangel) und implizierten, dass bessere Architekturen oder mehr Daten das Problem lösen könnten.
Ziel der Arbeit: Das Paper argumentiert, dass dieser Kollaps kein Optimierungsfehler oder ein Mangel an Daten ist, sondern eine theoretisch erwartete Konsequenz des Lernziels (Empirical Risk Minimization, ERM) unter quadratischem Verlust (MSE) in einem Umfeld mit schwacher konditionaler Struktur.

2. Methodik und Theoretischer Rahmen

Die Analyse erfolgt auf Prozessebene, wobei sowohl Eingaben als auch Ausgaben zeitliche Trajektorien sind.

A. Theoretische Grundlagen

Lernziel: Das Modell minimiert den mittleren quadratischen Fehler (MSE) über eine Vorhersage-Horizont $H$ $H$ .
- Es wird gezeigt, dass der Bayes-optimale Prädiktor unter quadratischem Verlust der bedingte Erwartungswert der zukünftigen Trajektorie gegeben die Vergangenheit ist: $f^*(X_t) = \mathbb{E}[Y_t | \mathcal{F}_t]$ .
Finanzielle Annahmen: Unter Standardannahmen für Finanzmärkte (z. B. Martingal-Eigenschaft der Preise oder bedingte Mittelwert-Null der Renditen) ist dieser bedingte Erwartungswert trivial:
- Für Preise: $f^*(X_t) = (X_t, X_t, \dots, X_t)$ (flache Linie).
- Für Renditen: $f^*(R_t) = (0, 0, \dots, 0)$ .
Hypothese: Wenn der optimale Prädiktor trivial ist, führt eine Erhöhung der Modellkomplexität (z. B. durch Transformer) nicht zu einer besseren Approximation eines komplexen Signals, sondern zur Wiederverwendung von Rauschen (Noise Reuse).

B. Vergleich der Hypothesenklassen

Das Paper vergleicht zwei Klassen von Prädiktoren:

Einfache lineare Klasse ( $\mathcal{H}_\ell$ ): Ein parametrisches Modell mit fester Dimension. Es schätzt den bedingten Mittelwert konsistent, und die Varianz des Schätzers geht mit wachsendem $n$ gegen Null.
Reiche interpolierende Klasse ( $\mathcal{H}$ ): Eine Klasse, die stark ausdrucksstarke Modelle (wie große Transformer oder Nearest-Neighbor-Interpolatoren) enthält, die Trainingsdaten exakt interpolieren können.

C. Theoretisches Ergebnis (Proposition 2)

Unter der Annahme, dass die Zukunft durch Rauschen dominiert wird ( $Y_t = \text{trivial} + \epsilon_t$ ):

Der erwartete Fehler des linearen Modells skaliert mit $H\sigma^2 + O(1/n)$ .
Der erwartete Fehler des interpolierenden Modells skaliert mit mindestens $2H\sigma^2$ .
Schlussfolgerung: Das interpolierende Modell führt zu einem strikt höheren Vorhersagefehler, da es das Trainingsrauschen in die Vorhersage „zurückinjiziert" und so die Varianz erhöht, ohne den Bias zu verringern (da der Bias bereits bei Null liegt).

3. Experimentelle Validierung

Die theoretischen Vorhersagen wurden mit numerischen Experimenten an hochfrequenten EUR/USD-Wechselkursdaten überprüft.

Datensatz: Intraday-Daten (30-Sekunden-Intervalle) vom 31.12.2020 bis 31.07.2025.
Setup:
- Lookback-Fenster ( $L$ ): 451 Zeitpunkte.
- Vorhersagehorizont ( $H$ ): 30 Zeitpunkte.
- Vergleich: Ein PatchTST-Modell (Transformer-basiert) vs. ein einfaches lineares Benchmark-Modell.
Ergebnisse:
- Verteilung der Fehler: Die kumulative Verteilungsfunktion der Fehler des Transformer-Modells liegt systematisch rechts von der des linearen Modells. Das bedeutet, der Transformer macht fast überall größere Fehler.
- Durchschnittlicher Fehler: Das Transformer-Modell hatte einen durchschnittlichen Trajektorienfehler, der ca. 1,71-mal höher war als der des linearen Modells.
- Häufigkeit: In ca. 92–94 % der Vorhersagefenster war der Fehler des Transformers größer als der des linearen Modells.
- Modellgröße: Selbst bei moderater Modellgröße war der Effekt vorhanden; eine weitere Vergrößerung des Modells verschlechterte die Leistung weiter.

4. Schlüsselbeiträge

Prozess-Erklärung für den Kollaps: Das Paper liefert die erste formale Erklärung, warum Transformer in Finanzzeitreihen scheitern: Es ist kein Optimierungsversagen, sondern eine direkte Konsequenz der Minimierung des quadratischen Verlusts bei einem trivialen Bayes-Optimum.
Rausch-Verstärkung durch Expressivität: Es wird gezeigt, dass in schwach vorhersagbaren Regimen (wie Finanzmärkten) mehr Ausdruckskraft zu mehr Varianz führt, da das Modell Rauschen aus den Trainingsdaten „lernt" und in die Vorhersage überträgt.
Grenzen von Architektur-Verbesserungen: Die Arbeit widerlegt die Annahme, dass komplexere Architekturen (Attention, Patching, Frequenzzerlegung) das Problem lösen können, solange das Lernziel (MSE) und die Datenstruktur (Martingal/Null-Mittelwert) unverändert bleiben.
Empirische Bestätigung: Die Ergebnisse an realen EUR/USD-Daten bestätigen die theoretische Vorhersage, dass einfache lineare Modelle in diesem Kontext robustere Vorhersagen liefern als hochkomplexe Deep-Learning-Modelle.

5. Bedeutung und Implikationen

Paradigmenwechsel: Für das Finanz-Machine-Learning reicht es nicht aus, einfach nur größere Modelle oder bessere Regularisierung zu verwenden. Der Fokus muss sich von der Architektur auf das Lernziel und die Vorhersagegröße verlagern.
Zukünftige Richtungen:
- Statt des bedingten Mittelwerts (Punktprognose) sollte die vollständige bedingte Verteilung gelernt werden (z. B. mittels Diffusionsmodellen oder probabilistischen Ansätzen), um Unsicherheit und höhere Momente (wie Volatilitäts-Clustering) zu erfassen.
- Es ist notwendig, den Signal-zu-Rausch-Verhältnis und die Art des Vorhersageproblems neu zu definieren, um sinnvolle Fortschritte zu erzielen.
Allgemeine Relevanz: Die Ergebnisse warnen davor, Modelle, die für stark strukturierte Daten (wie Energieverbrauch oder Verkehr) entwickelt wurden, ohne Anpassung auf Finanzdaten anzuwenden, da die zugrundeliegende statistische Struktur fundamental unterschiedlich ist.

Zusammenfassend stellt das Paper fest, dass der „Forecast Collapse" von Transformern in der Finanzwelt ein theoretisch notwendiges Ergebnis ist, wenn man versucht, den bedingten Mittelwert von Martingalen unter quadratischem Verlust zu schätzen, und dass komplexere Modelle in diesem Szenario lediglich das Rauschen amplifizieren.