TS-MLLM: A Multi-Modal Large Language Model-based Framework for Industrial Time-Series Big Data Analysis

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein erfahrener Mechaniker, der einen riesigen, komplexen Flugzeugmotor überwacht. Ihr Ziel ist es, genau zu wissen, wann der Motor ausfallen wird, damit Sie ihn rechtzeitig reparieren können. Das ist die Aufgabe von TS-MLLM, einer neuen KI-Technologie, die in diesem Papier vorgestellt wird.

Hier ist die Erklärung des Systems, übersetzt in eine einfache Geschichte mit Analogien:

Das Problem: Der "Ein-Augen"-Mechaniker

Bisher haben viele KI-Modelle versucht, den Motor zu überwachten, aber sie hatten ein Problem: Sie schauten nur durch ein einziges Fenster.

Manche schauten nur auf die Zahlen (die Sensordaten im Zeitverlauf). Das ist wie, wenn Sie nur auf den Tacho schauen, aber nicht hören, wie der Motor klingt.
Andere schauten nur auf Bilder (Frequenzdiagramme). Das ist wie, wenn Sie nur ein Foto des Motors machen, aber nicht wissen, wie er sich im Laufe der Zeit verändert hat.
Wieder andere lasen nur Handbücher (Textwissen). Das ist wie, wenn Sie nur die Bedienungsanleitung lesen, aber den Motor nie wirklich hören oder sehen.

Keine dieser Methoden allein reicht aus, um alle Fehler zu erkennen, besonders wenn nur wenige Daten vorhanden sind (wie bei einem neuen Motor).

Die Lösung: Das "Super-Team" (TS-MLLM)

Die Forscher haben TS-MLLM entwickelt. Stellen Sie sich das nicht als einen einzelnen Roboter vor, sondern als ein Super-Team aus drei Experten, die in einem Raum sitzen und gemeinsam einen Fall lösen:

Der Zeit-Analyst (Der Chronometer):
Dieser Experte schaut sich die Sensordaten an. Aber er tut es clever: Er schaut nicht auf jeden einzelnen Moment einzeln (was zu verwirrend wäre), sondern er gruppiert die Daten in kleine Klötze (wie ein Film, der in Szenen unterteilt ist). So kann er lange Zusammenhänge erkennen, zum Beispiel: "Der Motor wird langsam wärmer, seit drei Tagen."
Der Bild-Experte (Der Frequenz-Seher):
Dieser Experte verwandelt die Zahlen in Bilder. Er nimmt die Schwingungen des Motors und malt sie als farbenfrohe Landkarten (Spektrogramme) auf. Dabei nutzt er drei verschiedene "Farben" (Techniken), um alles zu sehen:
- Eine Farbe zeigt, wie sich der Motor wiederholt (wie ein Herzschlag).
- Eine Farbe zeigt die reinen Töne (wie ein Musikspektrum).
- Eine Farbe fängt plötzliche Stöße ein (wie ein Blitz).
  So sieht er Muster, die im reinen Zahlenstrom unsichtbar wären.
Der Text-Experte (Der Weisheits-Rat):
Dieser Experte kennt die Handbücher und Erfahrungswerte. Er weiß: "Wenn der Motor bei dieser Temperatur läuft, ist das normal." Oder: "Bei diesem Wetter sollten wir vorsichtig sein." Er bringt das menschliche Wissen in den Raum.

Wie sie zusammenarbeiten: Der "Kontrollraum"

Das Geniale an TS-MLLM ist, wie diese drei Experten sprechen. Sie reden nicht durcheinander. Stattdessen nutzt das System einen intelligenten Moderator (die "Multi-Modal Attention Fusion"):

Der Zeit-Analyst ist der Chef. Er sagt: "Moment, hier passiert gerade etwas Ungewöhnliches!"
Daraufhin fragt er sofort den Bild-Experten: "Hey, siehst du auf deiner Landkarte irgendwo einen roten Fleck, der dazu passt?"
Und er fragt den Text-Experten: "Steht im Handbuch etwas über dieses Verhalten?"

Das System holt sich also genau die Informationen, die es in diesem Moment braucht. Es verbindet die aktuelle Situation (Zeit) mit dem Aussehen (Bild) und dem Wissen (Text).

Warum ist das so toll?

Der "Few-Shot"-Effekt: Stellen Sie sich vor, Sie müssen einen neuen Motortyp überwachen, aber Sie haben nur sehr wenig Daten (vielleicht nur 5 % der üblichen Menge). Ein normaler KI-Modell würde hier versagen. TS-MLLM aber nutzt sein "Wissen" aus den Texten und Bildern, um sich schnell anzupassen. Es ist wie ein erfahrener Mechaniker, der auch mit wenig Erfahrung an einem neuen Motor sofort weiß, worauf er achten muss, weil er die Prinzipien versteht.
Genauigkeit: In Tests hat TS-MLLM gezeigt, dass es viel genauer vorhersagen kann, wann ein Motor ausfällt, als alle bisherigen Methoden. Es macht weniger Fehler, besonders wenn die Bedingungen schwierig sind (z. B. bei starkem Wind oder Hitze).

Zusammenfassung

TS-MLLM ist wie ein allwissender Super-Mechaniker, der gleichzeitig auf die Uhr, auf ein Röntgenbild und in die Bedienungsanleitung schaut. Er kombiniert diese drei Perspektiven, um nicht nur zu sehen, was gerade passiert, sondern auch zu verstehen, warum es passiert und was als Nächstes kommen könnte. Das macht ihn zum perfekten Helfer für die Wartung von riesigen Industrieanlagen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Prognose und Gesundheitsverwaltung (PHM) industrieller Anlagen hängt stark von der präzisen Analyse großer industrieller Zeitreihendaten ab. Bisherige Deep-Learning-Ansätze (wie RNNs, CNNs oder Transformer) leiden jedoch unter begrenzter Generalisierungsfähigkeit, insbesondere in Szenarien mit wenigen Daten (Few-Shot) oder Null-Shot-Szenarien. Zudem ignorieren die meisten Methoden die komplementäre Natur der verfügbaren Datenmodalitäten:

Zeitreihen: Erfassen feine dynamische Veränderungen, verpassen aber globale morphologische Muster.
Visuelle Darstellungen (Frequenzbereich): Erfassen strukturelle Signaturmuster, verlieren aber oft die zeitliche Auflösung.
Textuelles Wissen: Enthält domänenspezifisches Expertenwissen, erfasst aber keine physikalischen Hochfrequenzschwankungen.

Bestehende Multi-Modal-Modelle nutzen oft nur eine Modalität oder fusionieren diese oberflächlich, was zu einer Fehljustierung der Repräsentationen führt. Es besteht ein dringender Bedarf an einem einheitlichen Framework, das diese Informationen synergistisch nutzt.

2. Methodik: Das TS-MLLM Framework

Das vorgeschlagene TS-MLLM ist ein einheitliches Multi-Modal-Large-Language-Model (MLLM)-Framework, das drei Hauptkomponenten integriert, um zeitliche Signale, Frequenzbereichsbilder und textuelles Domänenwissen gemeinsam zu modellieren.

A. Industrial Time-Series Patch Modeling (Industrielle Zeitreihen-Patch-Modellierung)

Ziel: Erfassung langfristiger zeitlicher Abhängigkeiten und lokaler semantischer Muster.
Ansatz: Anstatt einzelne Zeitpunkte als Tokens zu behandeln, wird die Eingabezeitreihe in überlappende „Patches" (Teilstücke) segmentiert.
Mechanismus: Diese Patches werden durch einen Transformer-Encoder verarbeitet, der Multi-Head-Attention nutzt, um nicht-lineare Abhängigkeiten über lange Zeitfenster zu modellieren. Dies reduziert den Rechenaufwand im Vergleich zu punktweisen Transformer-Architekturen und verbessert die Erfassung des kontinuierlichen Systemzustands.

B. Spectrum-aware Vision-Language Model Adaptation (SVLMA)

Dieser Modul dient dazu, Frequenzbereichsinformationen und textuelles Wissen in einen gemeinsamen semantischen Raum zu überführen.

Multi-View Time-Frequency Transformation: Rohsignale werden in 2D-Bilder umgewandelt, die drei Kanäle kombinieren:
- Rekurrenzplots (RP): Erfassen nichtlineare Systemdynamiken.
- Kurzzeit-Fourier-Transformation (STFT): Erfasst stationäre Spektralmuster.
- Kontinuierliche Wavelet-Transformation (CWT): Lokalisiert transiente Impulse.
Domänenwissen-Embedding: Expertenwissen (z. B. Betriebsbedingungen) wird als strukturierter Text kodiert.
Vision-Language Adaptation: Ein vortrainierter Masked Autoencoder (MAE) extrahiert Merkmale aus den Spektralbildern. Ein lernbarer Projektor (Cross-Modal Projector) bildet diese visuellen Merkmale in den Embedding-Raum eines großen Sprachmodells (LLM, hier Qwen) ab. Das LLM verarbeitet dann die kombinierte Sequenz aus visuellen Tokens und Text-Tokens, um einen globalen semantischen Kontext ( $F_{LLM}$ ) zu generieren.

C. Temporal-centric Multi-modal Attention Fusion (TMAF)

Dieser Mechanismus fusioniert die zeitlichen Merkmale mit den multimodalen Kontextinformationen.

Query-Key-Value-Struktur: Die zeitlichen Merkmale aus dem Patch-Modell ( $F_{TS}$ ) dienen als Query. Die globalen semantischen Merkmale des LLM ( $F_{LLM}$ ) werden als Key und Value verwendet.
Asymmetrische Aufmerksamkeit: Da $F_{LLM}$ den globalen Kontext repräsentiert, wird er entlang der Zeitachse repliziert, um mit der Query-Länge übereinzustimmen.
Funktionsweise: Der Mechanismus nutzt die zeitlichen Features, um aktiv die relevantesten visuellen und textuellen Hinweise aus dem MLLM abzurufen. Dies ermöglicht eine gezielte Integration komplementärer Informationen, die den lokalen Signalfluktuationen entsprechen, während Rauschen unterdrückt wird.
Ausgabe: Die fusionierten Merkmale werden durch einen Regressionskopf verarbeitet, um die Vorhersage (z. B. Restnutzungsdauer - RUL) zu generieren.

3. Hauptbeiträge

Einheitliches Framework: Entwicklung von TS-MLLM, das Frequenzbereichsbilder, textuelles Wissen und Zeitsignale gemeinsam modelliert, um die Generalisierungsfähigkeit zu verbessern.
Spectrum-aware Adaptation (SVLMA): Einführung eines Dual-Branch-Lernansatzes, der es Vision-Language-Modellen ermöglicht, Frequenzbereichsdynamiken zu internalisieren und mit semantischem Kontext zu verknüpfen.
Temporal-centric Fusion (TMAF): Entwicklung eines Aufmerksamkeitsmechanismus, der zeitliche Features als Query nutzt, um relevante multimodale Hinweise aktiv abzurufen und so das zeitliche Verständnis zu vertiefen.
Robustheit und Effizienz: Nachweis der überlegenen Leistung in Few-Shot- und komplexen Szenarien durch umfangreiche Experimente.

4. Ergebnisse

Die Methode wurde auf dem C-MAPSS-Datensatz (NASA, Turbofan-Triebwerke) mit vier Subsets (FD001–FD004) evaluiert, die unterschiedliche Betriebsbedingungen und Fehlermodi abdecken.

Metriken: Bewertung mittels Root Mean Square Error (RMSE) und einer asymmetrischen Score-Funktion (die späte Vorhersagen stärker bestraft).
Leistung: TS-MLLM erreichte auf allen vier Subsets die niedrigsten RMSE-Werte im Vergleich zu State-of-the-Art-Baselines (einschließlich BiGRU, Transformer, GPT-2 und anderen LLM-basierten Ansätzen).
- Beispiel RMSE-Verbesserungen: ca. 0,3% (FD001) bis 3,4% (FD002) gegenüber den besten Baselines.
Few-Shot-Learning: Das Modell zeigte eine hohe Dateneffizienz. Selbst mit nur 5–20% der Trainingsdaten erreichte es Leistungen, die nahe an den Ergebnissen mit 100% der Daten lagen, was die Robustheit in datenarmen Szenarien unterstreicht.
Qualitative Analyse: Visualisierungen der RUL-Vorhersagen zeigten, dass TS-MLLM Degradationstrends stabil verfolgt, ohne systematische Verzerrungen oder übermäßige Verzögerungen, selbst bei komplexen Betriebsbedingungen.
Ablationsstudie: Die Verwendung eines MAE-basierten Visual Encoders erwies sich als überlegen gegenüber CNNs oder ViT-Architekturen, da sie strukturbewusste Repräsentationen für Spektralmuster liefert.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Integration von zeitlichen, visuellen (Frequenzbereich) und textuellen Modalitäten durch ein Large Language Model die Grenzen rein datengetriebener Zeitreihenmodelle überwinden kann.

Innovation: Die Kombination aus Patch-basierter Zeitreihenmodellierung und der Anpassung von Vision-Language-Modellen an industrielle Spektraldaten ist ein neuer Ansatz in der PHM.
Praktischer Nutzen: Das Framework ist besonders wertvoll für reale Industrieanwendungen, wo Daten oft knapp sind, Betriebsbedingungen variieren und Expertenwissen verfügbar ist.
Zukunft: Die Autoren planen, physik-informierte Priors zu integrieren und Foundation Models für industrielle Multi-Modal-Intelligenz weiterzuentwickeln.

Zusammenfassend bietet TS-MLLM einen robusten, effizienten und generalisierbaren Ansatz zur Vorhersage des Restlebens und zur Fehlerdiagnose in komplexen industriellen Umgebungen.