Forecast collapse of transformer-based models under squared loss in financial time series

Die Studie zeigt, dass bei Finanzzeitreihen mit schwacher bedingter Struktur die hohe Ausdruckskraft von Transformer-Modellen unter quadratischem Verlust keine Verbesserung der Vorhersagegenauigkeit bringt, sondern durch das Wiederverwenden von Rauschen zu einer schädlichen Varianzsteigerung führt, die im Vergleich zu einfachen linearen Benchmarks zu größeren Fehlern führt.

Pierre Andreoletti (IDP)

Veröffentlicht 2026-04-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Warum die „Super-Intelligenzen" an der Börse scheitern: Eine Erklärung

Stellen Sie sich vor, Sie versuchen, das Wetter von morgen vorherzusagen.

  • Szenario A: Sie schauen auf den Himmel, sehen Wolken, messen den Wind und nutzen ein hochkomplexes Computermodell. Das funktioniert gut, weil das Wetter Muster hat (Wolken ziehen, Regen folgt).
  • Szenario B: Sie versuchen, das Wetter vorherzusagen, indem Sie auf eine Münze werfen. Jedes Ergebnis ist völlig zufällig und hat nichts mit dem vorherigen zu tun.

Die neue Studie von Pierre Andreoletti zeigt, dass Transformer-Modelle (die „Super-Intelligenzen" der KI, die auch in Chatbots stecken) im Szenario B nicht nur versagen, sondern aktiv schlechter werden als ein einfacher Mensch, der nur auf die Münze schaut.

Hier ist die Geschichte dahinter, erklärt mit einfachen Bildern:

1. Das Ziel: Der „perfekte Durchschnitt"

Wenn eine KI lernt, Aktienkurse vorherzusagen, versucht sie, den Durchschnitt aller möglichen zukünftigen Kurse zu erraten, basierend auf dem, was sie heute sieht.

  • Bei Wetter oder Stromverbrauch gibt es einen echten Durchschnitt, der von der Vergangenheit abhängt (z. B. „Im Winter ist es kalt"). Die KI kann diesen Durchschnitt lernen und wird immer besser.
  • Bei Aktien (nach der Theorie des „Effizienten Marktes") ist die Zukunft jedoch wie ein Münzwurf. Wenn der heutige Kurs 100 € ist, ist der beste Schätzwert für morgen genau 100 €. Es gibt keine versteckte Tendenz nach oben oder unten, die man aus der Vergangenheit ablesen kann. Der „perfekte Durchschnitt" ist also eine flache Linie.

2. Das Problem: Wenn die KI zu clever wird

Stellen Sie sich vor, Sie haben einen Schüler, der extrem gut darin ist, Muster zu erkennen (das ist die Transformer-KI).

  • Der einfache Schüler (Lineares Modell): Er sagt: „Der Kurs war gestern 100, also sage ich 100 für morgen." Das ist fast immer richtig, weil es der beste Durchschnitt ist.
  • Der überforderte Super-Schüler (Transformer): Er sieht die Daten und denkt: „Ich muss so viel lernen wie möglich! Ich muss jede winzige Schwankung, jedes Zittern im Kurs verstehen!"

Da es in den Aktienkursen aber keine echten Muster gibt, sondern nur Rauschen (Zufall), fängt der Super-Schüler an, das Rauschen zu interpretieren. Er glaubt, ein zufälliges Zittern sei ein wichtiges Signal.

3. Die Analogie: Der Tänzer auf dem Eis

Stellen Sie sich einen Tänzer vor, der auf einer sehr glatten Eisfläche tanzt.

  • Die einfache Vorhersage ist wie ein Tänzer, der einfach an einem Punkt steht und wartet. Da das Eis glatt ist und der Tänzer nicht weiß, wohin er gehen soll, bleibt er stehen. Das ist die korrekte Antwort: „Ich weiß es nicht, also bleibe ich wo ich bin."
  • Der Transformer ist wie ein Tänzer, der versucht, die winzigsten Vibrationen des Eises zu spüren und darauf zu reagieren. Da das Eis aber nur zufällig vibriert (das Rauschen), fängt der Tänzer an, wild umherzuspringen, zu zucken und unnötige Sprünge zu machen.
  • Das Ergebnis: Der einfache Tänzer bleibt ruhig und macht keine Fehler (außer dem unvermeidlichen Zufall). Der wilde Tänzer macht riesige, unnötige Sprünge und stolpert viel öfter.

Die Studie zeigt: Je komplexer und ausdrucksstärker das Modell ist, desto mehr „falsche Sprünge" (Varianz) macht es, weil es versucht, aus dem Zufall ein Muster zu machen.

4. Was die Zahlen sagen (Der EUR/USD-Test)

Der Autor hat diese Theorie mit echten Daten getestet (Euro-Dollar-Kurse im 30-Sekunden-Takt).

  • Er verglich ein einfaches lineares Modell (das „stehende" Modell) mit einem modernen Transformer-Modell (dem „wild springenden" Modell).
  • Das Ergebnis: Das Transformer-Modell machte in 92 % der Fälle größere Fehler als das einfache Modell.
  • Es war nicht so, dass das Transformer-Modell manchmal genial war und manchmal dumm. Es war systematisch ungenauer, weil es durch seine Komplexität das zufällige Rauschen der Kurse in falsche Vorhersagen umwandelte.

5. Die große Erkenntnis

Das ist keine Schwäche der KI-Architektur (es ist nicht, dass die Transformer „schlecht programmiert" sind). Es ist eine mathematische Notwendigkeit.

Wenn die Zukunft wirklich zufällig ist (wie bei Aktien), dann ist die beste Vorhersage immer die, die nichts Neues behauptet (der aktuelle Preis).

  • Wenn man ein riesiges, komplexes Netzwerk darauf trainiert, diese „langweilige" Wahrheit zu lernen, wird es nicht besser.
  • Stattdessen beginnt es, das Rauschen der Trainingsdaten auswendig zu lernen. Es merkt sich: „Aha, in der Trainingszeit war da mal ein kleiner Sprung nach oben, also muss ich das auch vorhersagen!" Aber dieser Sprung war nur Zufall.

Fazit:
In der Finanzwelt ist „mehr Intelligenz" nicht immer besser. Wenn es nichts zu lernen gibt (weil die Märkte effizient sind), führt mehr Komplexität nur zu mehr Lärm. Die KI wird nicht zum Propheten, sondern zum Hysteriker, der aus jedem zufälligen Niesen ein Weltuntergangsszenario macht.

Die Studie warnt davor, einfach immer größere und komplexere KI-Modelle auf Finanzdaten zu werfen, in der Hoffnung, dass sie das „Geheimnis" knacken. Oft ist die beste Strategie einfach: Nicht zu viel tun.