StaTS: Spectral Trajectory Schedule Learning for Adaptive Time Series Forecasting with Frequency Guided Denoiser

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der verstaubte Radiosender

Stellen Sie sich vor, Sie versuchen, eine klare Nachricht (eine Vorhersage für die Zukunft, z. B. den Stromverbrauch oder den Aktienkurs) zu empfangen. Aber das Signal ist verrauscht.

Bisherige Methoden, die auf Diffusionsmodellen basieren (eine Art KI, die lernt, Bilder oder Daten aus Rauschen wiederherzustellen), funktionieren wie ein Radiosender mit einem festen Drehknopf. Egal, ob Sie Musik hören oder einen Wetterbericht empfangen wollen, der Sender dreht das Rauschen immer nach demselben, starren Muster rein und wieder heraus.

Das hat zwei große Nachteile:

Zu viel Rauschen zu früh: Manchmal wird das Signal so stark verzerrt, dass die KI gar nicht mehr weiß, wie sie es reparieren soll.
Zu wenig Rauschen am Ende: Manchmal ist das Signal am Ende noch nicht ganz "rein", und die KI gerät in Verwirrung, weil sie dachte, es sei schon fertig.

Außerdem schauen diese alten Methoden nur auf die Zeit (Sekunde für Sekunde), aber nicht auf die Frequenz (die Muster im Hintergrund, wie Töne in einer Melodie). Es ist, als würde man versuchen, ein Orchester zu reparieren, indem man nur auf die Lautstärke achtet, aber nicht darauf, welche Instrumente (Bass, Geige, Trompete) eigentlich spielen.

Die Lösung: StaTS – Der intelligente Dirigent

Die Forscher haben StaTS entwickelt. Man kann sich das wie einen intelligenten Dirigenten vorstellen, der zwei neue Werkzeuge besitzt, um das Orchester (die Daten) perfekt zu stimmen.

1. Der "Spectral Trajectory Scheduler" (STS) – Der flexible Taktstock

Statt einen starren Drehknopf zu benutzen, lernt dieser Scheduler für jedes einzelne Musikstück (jeden Datensatz) seinen eigenen Rhythmus.

Die Metapher: Stellen Sie sich vor, Sie müssen einen verschmutzten Teppich reinigen. Ein fester Plan würde sagen: "Reibe 10 Sekunden lang mit der gleichen Kraft." Das ist oft ineffizient.
Wie StaTS es macht: Der STS lernt, wann er stark schrubben muss und wann er sanft sein soll. Er passt das "Rauschen" (die Verschmutzung) so an, dass die KI sie später leicht wieder entfernen kann. Er sorgt dafür, dass die "Musik" (die Struktur der Daten) während des ganzen Prozesses klar erkennbar bleibt und nicht in einem unbrauchbaren Chaos untergeht.

2. Der "Frequency Guided Denoiser" (FGD) – Der Frequenz-Experte

Dies ist das zweite Werkzeug. Während andere KI-Modelle nur auf die Zeitachse schauen, schaut dieser Experte in die Frequenz.

Die Metapher: Stellen Sie sich vor, Sie versuchen, ein altes Foto zu restaurieren. Ein normaler Restaurator glättet alles und macht es unscharf. Der Frequenz-Experte hingegen weiß: "Aha, die Wolken im Hintergrund sind ein langsames, weiches Muster (niedrige Frequenz), aber die Blätter auf dem Baum wackeln schnell (hohe Frequenz)."
Wie StaTS es macht: Er erkennt, welche Art von "Rauschen" welche Art von Muster zerstört hat. Wenn das Rauschen die schnellen Bewegungen (hohe Frequenzen) besonders stark beschädigt hat, weiß der Denoiser genau, wie viel Kraft er dort einsetzen muss, um sie zu reparieren. Er passt die Reparaturkraft also dynamisch an, je nachdem, was gerade kaputt ist.

Wie das Training funktioniert: Der Tanz

Die beiden Teile (der Scheduler und der Denoiser) müssen perfekt zusammenarbeiten. Das ist wie ein Tanz, bei dem die Partner sich erst kennenlernen müssen.

Phase 1 (Der Tanz): Sie tanzen abwechselnd. Der Scheduler macht einen Schritt (legt Rauschen fest), dann der Denoiser (versucht es zu reparieren). Dann tauschen sie die Rollen. So lernen sie sich gegenseitig besser verstehen.
Phase 2 (Die Solo-Performance): Sobald sie den Tanz beherrschen, friert der Scheduler ein (er behält den perfekten Rhythmus bei), und der Denoiser übt noch einmal intensiv, um perfekt zu werden.

Das Ergebnis: Klare Vorhersagen in weniger Zeit

Warum ist das so toll?

Bessere Vorhersagen: Weil das System die Daten nicht "überreagiert" oder zu stark verzerrt, sind die Vorhersagen genauer. Es ist, als würde man ein verschwommenes Foto nicht nur unscharf machen, sondern die Details scharf stellen.
Schneller: Das System braucht weniger Schritte, um ein gutes Ergebnis zu liefern. Statt 50 Versuche, das Bild zu reparieren, reicht es oft schon mit 10, weil der "Taktstock" (STS) den perfekten Weg vorgibt.
Zuverlässig: Es weiß auch, wie unsicher es ist. Wenn die Vorhersage schwierig ist, zeigt es eine breitere Bandbreite an Möglichkeiten an (wie ein Wetterbericht, der sagt: "Es könnte regnen, aber vielleicht auch nur nieseln"), statt eine falsche, feste Zahl zu nennen.

Zusammenfassend:
StaTS ist wie ein intelligenter Musikproduzent, der nicht nur das Rauschen aus einer Aufnahme entfernt, sondern zuerst den perfekten Aufnahmeplan erstellt (STS) und dann genau weiß, welche Instrumente (Frequenzen) wie stark bearbeitet werden müssen (FGD). Das Ergebnis ist eine kristallklare Vorhersage, die schneller und genauer ist als alles, was wir bisher hatten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Diffusionsmodelle haben sich als vielversprechend für die probabilistische Zeitreihenvorhersage erwiesen, da sie komplexe bedingte Verteilungen modellieren können. Dennoch leiden bestehende Ansätze unter zwei wesentlichen Mängeln:

Starre Rauschpläne (Noise Schedules): Herkömmliche Modelle verwenden feste Rauschpläne (z. B. linear oder kosinusförmig). Dies führt oft zu:
- Schwierig umkehrbaren Zwischenzuständen, da das Spektrum der Daten über die Schritte hinweg kollabiert oder schlecht getrennt ist.
- Endzuständen, die von der Annahme „reines Rauschen" abweichen, was die Diskrepanz zwischen Trainings- und Inferenzverteilung vergrößert und die Inversion destabilisiert.
Fehlende spektrale Modellierung: Bisherige Methoden stützen sich hauptsächlich auf Zeitdomänen-Conditioning. Sie modellieren nicht explizit, wie Trends, periodische Komponenten und stochastisches Rauschen über verschiedene Frequenzbänder hinweg degradieren. Dies begrenzt die Fähigkeit des Denoisers, die Struktur der Daten über verschiedene Rauschniveaus hinweg wiederherzustellen.

2. Methodik: StaTS

Die Autoren schlagen StaTS vor, ein Diffusionsframework, das das Vorwärts-Korruptions-Verfahren (Noise Scheduling) und den Rückwärts-Denoising-Prozess gemeinsam optimiert. Das System besteht aus zwei Hauptkomponenten, die in einem zweistufigen Trainingsverfahren gelernt werden:

A. Spectral Trajectory Scheduler (STS)

Der STS lernt einen datenadaptiven Rauschplan $\beta(t)$ anstelle eines festen Templates.

Parametrisierung: $\beta(t)$ wird als lernbare Funktion der Diffusionsschritte modelliert (mittels eines kleinen MLP).
Spektrale Regularisierung: Um die Struktur der Daten zu erhalten und die Umkehrbarkeit zu verbessern, werden folgende Ziele optimiert:
- Boundary Objectives: Verhindern, dass $\beta(t)$ gegen Null kollabiert (untere Schranke) oder zu groß wird (obere Schranke).
- Endpoint Objectives: Sicherstellen, dass der Endzustand $x_T$ ein spektral flaches (uniformes) Rauschen aufweist, um die Diffusionsannahme zu erfüllen.
- Spectral Flatness Objective: Erzwingt einen glatten Übergang der spektralen Flachheit über die Schritte hinweg, um eine spektrale Kollapse zu vermeiden.
- Smoothness: Der Rauschplan selbst soll glatt verlaufen.
Ziel: Ein Rauschplan, der für den spezifischen Datensatz optimiert ist und Zwischenzustände erzeugt, die für den Denoiser leicht umkehrbar sind.

B. Frequency Guided Denoiser (FGD)

Der FGD nutzt den vom STS gelernten Rauschplan, um die Wiederherstellung der Daten zu steuern.

Conditioning: Der Denoiser erhält den verrauschten Zielzustand $x_t$ und den historischen Kontext $c_0$ .
Spektrale Verzerrungsschätzung (SDE): Der FGD schätzt explizit die durch den Rauschplan verursachte spektrale Verzerrung im historischen Kontext. Dies geschieht durch den Vergleich der Spektren von $c_0$ und dem korrupten $c_t$ .
Frequency-Guided Modulation: Diese Schätzung wird genutzt, um die Stärke des Denoisings über verschiedene Frequenzbänder und Schritte hinweg anzupassen. Ein „Gate"-Mechanismus moduliert das verrauschte Signal, sodass der Denoiser heterogene Wiederherstellungsanstrengungen leisten kann.
Architektur: Kombiniert ein deterministisches Frequenz-Modul (basierend auf Fourier-Transformation und Gating) mit einem stochastischen Diffusions-Denoiser. Die finale Vorhersage ist eine adaptive Kombination beider Komponenten.

C. Trainingsstrategie

Um die Kopplung zwischen STS und FGD zu stabilisieren, wird ein zweistufiges Training verwendet:

Stufe 1 (Alternierende Updates): STS und FGD werden abwechselnd für $k$ Epochen aktualisiert. Der Rauschplan wird basierend auf der aktuellen Denoiser-Leistung verfeinert und umgekehrt.
Stufe 2 (Fixierung): Der gelernte Rauschplan wird eingefroren, und der FGD wird bis zur Konvergenz unter diesem festen Plan trainiert. Dies eliminiert Drift im Vorwärtsprozess.

3. Hauptbeiträge

StaTS Framework: Ein neues Diffusionsframework, das Rauschplanung und Denoising koppelt, um Korruption und Wiederherstellung besser abzustimmen.
Spectral Trajectory Scheduler (STS): Ein Modul, das einen datenadaptiven Diffusionsplan lernt, regularisiert durch spektrale Ziele (Flachheit, Endzustand), um strukturelle Erhaltung zu gewährleisten.
Frequency Guided Denoiser (FGD): Ein Denoiser, der spektrale Verzerrungen schätzt und diese nutzt, um die Denoising-Stärke adaptiv über Schritte und Variablen hinweg zu modulieren.
Theoretische Fundierung: Beweise zur Konvergenz der Plan-Optimierung und zur Stabilität des Vorwärtsprozesses bei Plan-Änderungen.

4. Ergebnisse

Die Methode wurde auf acht realen multivariaten Zeitreihendatensätzen (z. B. Electricity, Traffic, ETT-Serie, ILI) evaluiert.

Überlegene Leistung: StaTS übertrifft konsistent State-of-the-Art-Baselines (wie CSDI, TimeDiff, NsDiff) in Bezug auf CRPS (Continuous Ranked Probability Score, Maß für Unsicherheitsqualität) und MAE/MSE (Punktvorhersagegenauigkeit).
Effizienz bei wenigen Schritten: Ein entscheidender Vorteil ist die Robustheit bei reduzierter Anzahl an Sampling-Schritten ( $T$ ). Während feste Pläne bei wenigen Schritten stark an Leistung verlieren, bleibt StaTS auch bei $T=10$ oder $T=20$ hochpräzise.
Visualisierung: Qualitative Analysen zeigen, dass StaTS periodische Oszillationen und lokale Strukturänderungen besser erfasst als Baselines, die oft zu stark geglättete Vorhersagen liefern. Die Unsicherheitsbänder sind besser kalibriert (eng bei stabilen Phasen, weit bei Unsicherheit).
Ablationsstudie: Das Entfernen der spektralen Endpunkte-Ziele (EPO) oder der spektralen Verzerrungsschätzung (SDE) führt zu signifikanten Leistungseinbußen, was die Wichtigkeit der spektralen Regularisierung und Führung unterstreicht.

5. Bedeutung und Ausblick

StaTS adressiert eine fundamentale Schwäche bestehender Diffusionsmodelle für Zeitreihen: die Annahme eines universellen, festen Rauschplans. Durch die Lernbarkeit des Rauschplans unter spektralen Constraints und die frequenzbasierte Führung des Denoisers ermöglicht das Modell:

Eine bessere Erhaltung der zugrunde liegenden Datenstruktur (Trends, Periodizitäten) während des Diffusionsprozesses.
Eine stabilere und effizientere Inferenz mit weniger Rechenschritten.
Höhere Zuverlässigkeit in der Unsicherheitsquantifizierung, was für risikobewusste Entscheidungen in Bereichen wie Finanzen und Gesundheitswesen entscheidend ist.

Das Paper demonstriert, dass die Anpassung des Diffusionsprozesses an die spektralen Eigenschaften der Daten ein effektiver Weg ist, um die Leistung probabilistischer Zeitreihenvorhersagen zu steigern. Der Code ist öffentlich verfügbar.