MSNet and LS-Net: Scalable Multi-Scale Multi-Representation Networks for Time Series Classification

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, die Stimmung eines Menschen zu erraten, indem Sie nur auf seine Stimme hören. Das ist im Grunde das, was Computer bei der Zeitreihen-Klassifizierung (Time Series Classification) tun: Sie schauen sich Daten an, die sich über die Zeit verändern (wie Herzschläge, Aktienkurse oder Wetterdaten), und versuchen, eine Kategorie zuzuordnen (z. B. "gesund" oder "krank", "steigend" oder "fallend").

Bisher haben die meisten Computermodelle versucht, diese Aufgabe zu lösen, indem sie sich nur die rohe Stimme (die Rohdaten) angehört und alles andere selbst herausfinden mussten. Das ist wie ein Detektiv, der nur ein einziges, verwaschenes Foto hat und alles andere raten muss.

Die Autoren dieses Papers haben einen clevereren Ansatz entwickelt. Sie sagen: "Warum raten, wenn wir dem Detektiv auch noch einen Spiegel, ein Vergrößerungsglas und ein Frequenz-Analyse-Gerät geben können?"

Hier ist die Erklärung der drei Hauptfiguren (die neuen Modelle) und ihrer Tricks, einfach erklärt:

1. Der große Trick: Mehrere Perspektiven (Multi-Representation)

Statt nur auf die rohe Datenlinie zu schauen, bereiten die Autoren die Daten auf drei verschiedene Arten auf, bevor sie sie dem Computer geben:

Die Rohdaten: Wie die Stimme klingt.
Die Veränderung: Wie schnell sich die Stimme ändert (wie ein Beschleunigungsmesser).
Die Frequenz: Welche Töne (Hoch oder Tief) in der Stimme stecken (wie ein Musik-Equalizer).

Stellen Sie sich vor, Sie wollen ein Auto identifizieren. Ein normales Modell schaut nur auf das Auto. Das neue Modell schaut gleichzeitig auf das Auto, auf die Spuren der Reifen im Dreck und auf den Klang des Motors. Durch diese vielfältigen Perspektiven verstehen die Modelle die Daten viel besser.

2. Die drei neuen Helden (Die Modelle)

Die Autoren haben drei verschiedene "Detektive" (Modelle) gebaut, die alle diese verschiedenen Perspektiven nutzen, aber für unterschiedliche Zwecke optimiert sind:

A. MSNet: Der sorgfältige Gutachter (Für Genauigkeit und Sicherheit)

Was er macht: Er ist wie ein sehr erfahrener, aber langsamer Richter. Er schaut sich die Daten aus vielen verschiedenen Entfernungen an (kurze Details und lange Trends) und kombiniert alle Perspektiven sehr gründlich.
Sein Superkraft: Er ist nicht nur gut darin, die richtige Antwort zu geben, sondern er weiß auch wie sicher er sich ist. Wenn er unsicher ist, sagt er das ehrlich (das nennt man "Kalibrierung").
Wann man ihn braucht: In Situationen, in denen Fehler teuer sind, z. B. in der Medizin. Wenn er sagt "Das ist ein Herzinfarkt", dann ist er sich ziemlich sicher, und das ist lebenswichtig.

B. LS-Net: Der schnelle Sportwagen (Für Geschwindigkeit und Effizienz)

Was er macht: Er ist der Leichtgewicht. Er nutzt einen cleveren Trick namens "Früher Ausstieg" (Early Exit).
Der Trick: Stellen Sie sich vor, LS-Net schaut sich ein einfaches Problem an (z. B. "Ist das ein rotes Auto?"). Wenn er sofort zu 100 % sicher ist, dass es rot ist, gibt er die Antwort sofort ab und spart sich die lange, mühsame Analyse. Nur bei schwierigen Fällen (z. B. "Ist das ein dunkelrotes Auto oder ein braunes?") schaltet er den "Super-Modus" ein und denkt länger nach.
Sein Superkraft: Er ist extrem schnell und spart viel Energie, ohne dabei viel an Genauigkeit zu verlieren.
Wann man ihn braucht: Wenn Sie Tausende von Daten in Echtzeit verarbeiten müssen, z. B. auf einem Smartphone oder in einer Fabrik mit begrenztem Akku.

C. LiteMV: Der Meister-Verknüpfer (Der Gewinner bei der reinen Genauigkeit)

Was er macht: Dieser wurde ursprünglich für Daten mit vielen Kanälen (wie ein Stereo-Audio mit links und rechts) entwickelt. Die Autoren haben ihn so umgebaut, dass er die verschiedenen Perspektiven (Rohdaten, Frequenz, etc.) wie verschiedene Kanäle behandelt.
Sein Superkraft: Er ist der beste darin, die Informationen aus den verschiedenen Perspektiven zu verknüpfen und zu verstehen, wie sie sich gegenseitig beeinflussen.
Ergebnis: Er hat in den Tests die höchste reine Trefferquote erzielt.

3. Das große Experiment

Die Autoren haben diese Modelle nicht nur an einem Beispiel getestet. Sie haben sie an 142 verschiedenen Datensätzen ausprobiert – von der Erkennung von EKGs bis hin zur Analyse von Erdbeben. Das ist wie ein riesiges Turnier, bei dem sie gegen alle anderen besten Detektive angetreten sind.

Die Ergebnisse:

LiteMV hat am häufigsten die richtige Antwort gegeben (höchste Genauigkeit).
MSNet war der zuverlässigste, wenn es darum ging, die Sicherheit der Antwort einzuschätzen (beste Kalibrierung).
LS-Net war der Schnellste und sparsamste, ohne dabei schlecht abzuschneiden.

Zusammenfassung in einem Satz

Die Autoren haben gezeigt, dass man Computern hilft, Zeitreihen besser zu verstehen, indem man ihnen verschiedene Arten, die Daten zu sehen, gibt (nicht nur die rohen Daten), und je nachdem, ob man Geschwindigkeit, absolute Sicherheit oder maximale Genauigkeit braucht, den passenden "Detektiv" (MSNet, LS-Net oder LiteMV) auswählt.

Es ist wie beim Kochen: Man kann ein Gericht nur mit Salz würzen (Rohdaten), aber wenn man auch Pfeffer, Kräuter und Zitronensaft hinzufügt (verschiedene Perspektiven), wird das Ergebnis viel besser – und je nachdem, ob man schnell essen muss oder ein Festmahl zubereitet, wählt man das passende Rezept.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Zeitreihenklassifizierung (Time Series Classification, TSC) hat durch Deep-Learning-Architekturen (CNNs, Transformer) erhebliche Fortschritte gemacht. Dennoch bleiben zwei fundamentale Aspekte in der Forschung oft unzureichend untersucht:

Mangelnde Vielfalt der Eingangsrepräsentationen: Die meisten Modelle arbeiten ausschließlich mit rohen Zeitreihendaten (Time-Domain) und erwarten, dass das Netzwerk alle relevanten Transformationen intern lernt. Klassische Signalverarbeitung zeigt jedoch, dass komplementäre Darstellungen (z. B. Ableitungen, Frequenzdomänen-Projektionen, Autokorrelation) diskriminierende Informationen enthalten, die aus Rohdaten allein schwer zu extrahieren sind.
Trade-off zwischen Genauigkeit, Kalibrierung und Effizienz: Bestehende Multi-Scale-Modelle sind oft rein auf Vorhersagegenauigkeit optimiert, ohne die Qualität der probabilistischen Kalibrierung (Vertrauenswürdigkeit der Wahrscheinlichkeiten) oder die Skalierbarkeit der Rechenkosten bei großen Benchmark-Sammlungen (z. B. 142 Datensätze) ausreichend zu analysieren.

2. Methodik

Die Autoren schlagen ein skalierbares Framework vor, das Multi-Scale-Convolution (Multi-Skalen-Faltung) mit Multi-Representation-Learning (Lernen aus mehreren Darstellungen) kombiniert.

A. Multi-Representation Framework

Anstatt nur Rohdaten zu verwenden, wird für jede univariate Zeitreihe $x(t)$ ein Satz strukturierter Repräsentationen konstruiert:

Zeitdomäne: TIME (Rohdaten), DT1 (1. Ableitung), DT2 (2. Ableitung).
Frequenzdomäne: HLB MAG (Hilbert-Magnitude), FFT MAG (FFT-Magnitude), DCT (Diskrete Kosinustransformation).
Andere: DWT A (Wavelet-Näherungskoeffizienten), ACF (Autokorrelation).
Jede Repräsentation wird als separater Eingabekanal behandelt, was ein strukturiertes Lernen innerhalb der Convolutional Neural Networks (CNNs) ermöglicht.

B. Architekturen

Das Paper stellt zwei neue Architekturen vor:

MSNet (Multi-Scale Network):
- Ziel: Robustheit und probabilistische Kalibrierung.
- Design: Eine hierarchische Multi-Scale-Convolutional-Netzwerkarchitektur. Sie nutzt parallele Verzweigungen mit unterschiedlichen Kernel-Größen (z. B. $k=3, 5, 7$ ), um zeitliche Abhängigkeiten über verschiedene Rezeptionsfelder gleichzeitig zu erfassen.
- Verarbeitung: Die Ausgaben werden fusioniert und durch hierarchische Blöcke (BatchNorm, ReLU, gestapelte 1D-Conv, Dropout) geleitet, gefolgt von Global Average Pooling.
- Besonderheit: Optimiert für stabile Kalibrierung (niedriger Negative Log-Likelihood, NLL).
LS-Net (Lightweight Scale Network):
- Ziel: Recheneffizienz und geringer Trainingsaufwand.
- Design: Eine leichte Variante mit einem Early-Exit-Mechanismus (inspiriert von „Early Exit"-Architekturen).
- Funktionsweise:
  - Zwei flache Convolutional-Verzweigungen (Kernel 3 und 5) erzeugen eine kompakte Darstellung.
  - Ein „Early Classifier" prüft die Konfidenz der Vorhersage. Wenn die maximale Klassenwahrscheinlichkeit einen Schwellenwert ( $\tau = 0.8$ ) überschreitet, wird die Vorhersage sofort ausgegeben.
  - Nur bei unsicheren Vorhersagen wird der tiefere Hauptpfad (Main Pathway) durchlaufen.
- Training: Nur der Hauptpfad wird trainiert; der Early Exit wird nur während der Inferenz aktiviert.
LiteMV-Adaptierung:
- Das ursprünglich für multivariate Zeitreihen entwickelte LiteMV-Modell wird angepasst, um die verschiedenen Signalrepräsentationen einer univariaten Zeitreihe als „Pseudo-Variablen" (Kanäle) zu behandeln. Dies ermöglicht Interaktionen zwischen den verschiedenen Darstellungen (z. B. Zeit- vs. Frequenzdomäne).

3. Experimentelles Setup

Datensätze: Evaluation auf 142 Benchmark-Datensätzen (UCR/UEA Archive).
Protokoll: Einheitliches Experiment-Design mit Monte-Carlo-Resampling (30 Wiederholungen pro Datensatz).
Metriken: Genauigkeit (Accuracy), Macro-F1, AUC, Negative Log-Likelihood (NLL) für Kalibrierung sowie Trainings- und Inferenzzeit.
Statistik: Friedman-Test mit Nemenyi-Post-hoc-Analyse und Critical Difference (CD)-Diagrammen zur Überprüfung statistischer Signifikanz.

4. Wichtige Ergebnisse

Die Studie liefert folgende Hauptergebnisse:

Überlegenheit der Multi-Representation: Strukturierte Erweiterung der Eingangsrepräsentationen führt konsistent zu besseren Ergebnissen im Vergleich zu reinen Rohdaten.
Leistungsranking:
- LiteMV (angepasst): Erreicht die höchste mittlere Genauigkeit (0,836) und Macro-F1.
- MSNet: Bietet die beste probabilistische Kalibrierung (niedrigster NLL von 0,615), was für risikobewusste Anwendungen (z. B. Medizin) entscheidend ist.
- LS-Net: Bietet den besten Trade-off zwischen Effizienz und Genauigkeit. Es erreicht nahezu State-of-the-Art-Genauigkeit bei deutlich reduzierter Trainingszeit (ca. 11,7 s vs. 25,35 s bei MSNet) und schneller Inferenz.
Statistische Signifikanz: Die Unterschiede zwischen den Top-Modellen sind statistisch signifikant (Nemenyi-Test), wobei keine einzelne Architektur auf allen Datensätzen dominiert.
Pareto-Frontier: Die Analyse zeigt, dass Multi-Scale-Multi-Representation-Modelle einen flexiblen Designraum bieten, der je nach Anforderung (Genauigkeit, Kalibrierung oder Ressourcen) angepasst werden kann.

5. Bedeutung und Fazit

Das Paper etabliert skalierbares Multi-Representation Multi-Scale-Lernen als einen fundierten und praktischen Ansatz für die moderne Zeitreihenklassifizierung.

Praktische Relevanz: Die Autoren zeigen, dass die Kombination aus repräsentationsbasiertem Engineering (Nutzung von Ableitungen, Frequenzdaten etc.) und skalierbaren Architekturen (MSNet/LS-Net) robustere und effizientere Modelle ermöglicht.
Anwendungsbezug:
- Für maximale Genauigkeit wird LiteMV empfohlen.
- Für zuverlässige Unsicherheitsschätzung (Kalibrierung) ist MSNet die erste Wahl.
- Für ressourcenbeschränkte Umgebungen (Edge-Computing, Echtzeit) bietet LS-Net die optimale Lösung.
Beitrag zur Forschung: Die Arbeit füllt die Lücke zwischen reinen Genauigkeitsoptimierungen und der Analyse von Kalibrierung sowie Effizienz in großen Benchmark-Sammlungen. Sie demonstriert, dass die Interaktion zwischen Architekturdesign und Repräsentationsvielfalt zentral für die Leistungsfähigkeit von TSC-Systemen ist.

Die Implementierung der Modelle ist öffentlich unter https://github.com/alagoz/msnet-lsnet-tsc verfügbar.