Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der "Krankheitssuchende", der nur raten kann

Stellen Sie sich vor, Sie haben eine riesige Fabrik mit vielen Maschinen. Ihr Job ist es, herauszufinden, wann eine Maschine kaputtgeht, bevor sie wirklich ausfällt.

Das Schwierige daran: Niemand hat eine Liste mit allen möglichen Defekten. In der echten Welt gibt es kaum Daten darüber, wie eine Maschine genau in dem Moment aussieht, in dem sie zu brechen beginnt. Die meisten Computerprogramme, die heute dafür genutzt werden, funktionieren wie ein Glücksspieler: Sie schauen sich einen einzelnen Moment an (z. B. ein Geräusch oder eine Vibration) und raten: "Ist das gesund oder krank?"

Das Problem ist: Maschinen werden nicht über Nacht kaputt. Sie altern langsam. Ein Gluckser heute ist harmlos, aber in Kombination mit einem anderen Geräusch morgen ist es ein Warnsignal. Die alten Programme ignorieren diese Geschichte und schauen nur auf den einzelnen Moment. Das ist, als würde man versuchen, ein Buch zu verstehen, indem man nur zufällige Wörter herauspickt, ohne die Sätze zu lesen.

Die Lösung: Ein neuer Ansatz namens "Adversarial Inverse Reinforcement Learning"

Die Forscher von der Deakin University haben eine clevere Idee entwickelt. Statt zu versuchen, alle möglichen Fehler zu lernen (was unmöglich ist, weil man sie nicht kennt), lernen sie nur das Gesunde.

Stellen Sie sich das so vor:

Der "Meister-Koch" (Der Experte):
Die Maschine läuft normal. Wir nehmen all diese Daten und sagen dem Computer: "Das hier ist der perfekte Weg, wie eine gesunde Maschine funktioniert." Wir nennen diese Daten "Experten-Trajektorien".
Der "Lehrling" und der "Kritiker" (Das Spiel):
Jetzt kommt ein spannendes Spiel ins Spiel, ähnlich wie bei einem Kunstfälscher und einem Kunstexperten:
- Der Lehrling versucht, das Verhalten einer gesunden Maschine nachzuahmen. Er generiert Szenarien.
- Der Kritiker (das ist der eigentliche Held dieser Forschung) schaut sich die Szenarien an. Er muss entscheiden: "Ist das der echte, gesunde Weg des Meisters oder hat der Lehrling etwas erfunden?"
Die Belohnung (Der Score):
Der Kritiker lernt dabei nicht nur zu unterscheiden, sondern entwickelt ein Gefühl für das Richtige. Er bekommt eine "Belohnung" (einen Score), wenn er erkennt, dass etwas wirklich gesund ist.
- Wenn die Maschine sich normal verhält, ist der Score hoch.
- Wenn die Maschine beginnt, sich seltsam zu verhalten (weil sie sich abnutzt), merkt der Kritiker: "Moment, das passt nicht mehr in das Muster des gesunden Meisters!" Der Score sinkt.

Warum ist das besser als alles andere?

Die alten Methoden waren wie ein Einzelbild-Foto: Sie schauen auf ein Bild und sagen "Das sieht krank aus".
Diese neue Methode ist wie ein Film: Sie sehen, wie sich die Maschine über die Zeit entwickelt.

Früherkennung: Weil das System die Veränderung über die Zeit beobachtet, merkt es Probleme viel früher. Es sieht die ersten Risse im Fundament, lange bevor das Haus einstürzt.
Keine Fehler-Liste nötig: Das Geniale ist: Man muss dem Computer nicht sagen, wie ein Defekt aussieht. Er lernt nur, wie das "Gesunde" aussieht. Alles, was davon abweicht, ist automatisch verdächtig.

Das Ergebnis im echten Leben

Die Forscher haben ihr System an drei verschiedenen Test-Szenarien getestet (eins davon war sogar ein offizieller Wettbewerb für Helikopter-Getriebe).

Andere Methoden haben oft zu früh Alarm geschlagen (Fehlalarme) oder gar nichts gemerkt, weil sie die langsame Verschlechterung nicht verstanden.
Dieses neue System hat den Defekt genau dann gemeldet, als er wirklich begann, aber nicht zu früh. Es war wie ein sehr aufmerksamer Mechaniker, der genau weiß, wann der Motor "schief" läuft, ohne in Panik zu geraten.

Zusammenfassung in einem Satz

Statt zu raten, was kaputt ist, lernt dieses KI-System perfekt, wie eine gesunde Maschine "sich anfühlt", und warnt uns sofort, wenn sie auch nur ein kleines bisschen aus dem Takt gerät – ganz ohne dass wir ihr vorher eine Liste mit allen möglichen Defekten geben müssen.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Adversarial Inverse Reinforcement Learning für die Maschinenausfallerkennung

Titel: Learning Rewards, Not Labels: Adversarial Inverse Reinforcement Learning for Machinery Fault Detection
Verfasser: Dhiraj Neupane et al. (Deakin University)
Veröffentlicht bei: AAMAS 2026 (Extended Abstract)

1. Problemstellung

Die Erkennung von Maschinenausfällen (Machinery Fault Detection, MFD) ist entscheidend für die industrielle Zuverlässigkeit. Der aktuelle Stand der Technik stößt jedoch auf zwei Hauptprobleme:

Mangel an gelabelten Daten: In realen Szenarien sind umfangreiche gelabelte Ausfalldaten selten, was überwachtes Lernen (Supervised Learning) erschwert.
Fehlende Berücksichtigung der Sequenzialität: Die meisten bestehenden RL-basierten Ansätze behandeln MFD als einfaches "Raten-Spiel" (Contextual Bandits). Dabei werden Sensordaten als unabhängige Zustände betrachtet, es wird keine Diskontierung (Discount Factor $\gamma=0$ ) verwendet und die zeitliche Struktur des fortschreitenden Verschleißes ignoriert. Dies widerspricht dem Kernprinzip des Reinforcement Learning (RL), das auf sequenziellen Entscheidungen basiert.

Das Ziel dieses Papers ist es, diese Lücke zu schließen, indem MFD nicht als Klassifikationsproblem, sondern als sequenzielles Entscheidungsproblem formuliert wird, das ohne manuelle Fehlerlabels oder explizite Belohnungsfunktionen auskommt.

2. Methodik

Die Autoren schlagen einen Rahmen vor, der MFD als Offline Inverse Reinforcement Learning (IRL) Problem formuliert. Das System lernt die Belohnungsdynamik direkt aus gesunden Betriebsdaten ("Expert-Demonstrationen").

A. Zustandsübergangskonstruktion (State-Only Imitation Learning)

Da industrielle Datensätze oft keine aufgezeichneten Steuerungsinputs (Control Inputs) enthalten, wird eine Formulierung namens State-Only Imitation Learning (SOIL) verwendet:

Die normalisierten Vibrations Signale werden in Fenster unterteilt.
Der aktuelle Zustand $s_t$ ist das aktuelle Fenster.
Da keine expliziten Aktionen vorhanden sind, wird die natürliche zeitliche Entwicklung zum nächsten Fenster als "Proxy-Aktion" ( $a_t = x_{t+1}$ ) definiert.
Dies ermöglicht es dem AIRL-Discriminator, die Plausibilität des Übergangs ( $s_t \to s_{t+1}$ ) zu bewerten.

B. Adversarielles Belohnungslernen (Adversarial Inverse RL - AIRL)

Das Framework nutzt ein GAN-ähnliches (Generative Adversarial Network) Setup mit zwei Komponenten:

Generator ( $\pi$ ): Versucht, die Dynamik des gesunden Experten nachzuahmen.
Discriminator ( $D$ ): Unterscheidet zwischen Übergängen aus der gesunden Expertenverteilung und solchen, die vom Generator erzeugt wurden.

Der Discriminator ist strukturell so aufgebaut, dass er eine robuste Belohnungsfunktion $r_\theta(s, a)$ extrahiert, die von der Systemdynamik entkoppelt ist:
$D(s, a, s') = \sigma(r_\theta(s, a) + \gamma V_\phi(s') - V_\phi(s) - \log \pi(a|s))$
Dabei fungiert der gelernte Term $r_\theta$ als interpretierbarer Gesundheits-Score. Hohe Werte deuten auf Übereinstimmung mit gesundem Verhalten hin, niedrige Werte auf Anomalien.

C. Anomalie-Bewertung (Anomaly Scoring)

Nach dem Training wird der Anomalie-Score für eine Trajektorie $\tau$ als invertierter durchschnittlicher Discriminator-Vertrauenswert berechnet:
$Score(\tau) = 1 - \frac{1}{T} \sum_{t=0}^{T} D(s_t, a_t, s_{t+1})$
Ein hoher Score signalisiert eine Abweichung vom Normalzustand. Der Ausfallzeitpunkt wird durch dynamische Schwellenwertmethoden (z. B. Otsu, K-Means) identifiziert.

3. Schlüsselergebnisse

Die Methode wurde an drei Benchmark-Datensätzen getestet, die bis zum Ausfall laufen (Run-to-Failure): HUMS2023 (Getriebe), IMS und XJTU-SY.

Frühe Erkennung (HUMS2023):
- Das AIRL-Modell erkannte den Ausfall am Tag 22 (Datei #163).
- Dies liegt zwischen dem "FRESH Filter" (Tag 22, #127) und dem offiziellen Gewinner des Challenges (Tag 23, #175).
- Wichtig: Die Erkennung erfolgte vor dem konservativen Ground Truth des Komitees (Tag 24, #264), ohne die vorzeitigen Fehlalarme (False Positives) anderer Methoden.
Vergleich mit Baselines:
- Klassische Baselines (Isolation Forest, OCSVM, Autoencoder) lösten Alarme zu früh aus (oft Tag 21).
- Sequenzielle Modelle (LSTM-AE, LSTM-VAE) erreichten Tag 22, waren aber weniger stabil.
- Contextual Bandit (CTQN) Baseline: Versagte komplett und klassifizierte den gesamten Testdatensatz als normal. Dies bestätigt, dass ohne Modellierung von Zustandsübergängen ( $\gamma=0$ ) die schleichende Ermüdung nicht erkannt werden kann.
Konsistenz: Das AIRL-Modell zeigte eine hohe "Post-Detection Consistency" (PDC) von ca. 65 % nach dem Ausfall, was auf eine robuste Erkennung hindeutet.

4. Hauptbeiträge

Erste Anwendung von AIRL auf MFD: Dies ist das erste Mal, dass Adversarial Inverse Reinforcement Learning zur Erkennung von Maschinenausfällen eingesetzt wird.
Label-freier Ansatz: Das System benötigt keine manuellen Fehlerlabels oder eine vordefinierte Belohnungsfunktion; es lernt die "Gesundheit" direkt aus normalen Betriebsdaten.
Sequenzielle Modellierung: Im Gegensatz zu bestehenden RL-Ansätzen, die als Contextual Bandits formuliert sind, nutzt dieses Framework die zeitliche Struktur des Verschleißes durch die Modellierung von Zustandsübergängen.
Interpretierbarkeit: Die gelernte Belohnungsfunktion dient direkt als interpretierbarer Anomalie-Score, der Abweichungen vom Normalzustand quantifiziert.

5. Bedeutung und Ausblick

Diese Arbeit zeigt, dass das Lernen der Dynamik von "Gesundheit" (Health Dynamics) überlegen ist gegenüber der bloßen Klassifizierung isolierter Beobachtungen. Sie ebnet den Weg für datengetriebene Diagnosesysteme in der Industrie, die robust, frühzeitig und ohne aufwendige Labeling-Prozesse arbeiten.

Zukünftige Arbeiten sollen das Framework auf die Fusion mehrerer Sensoren erweitern und unsicherheitsbewusste Schwellenwertmethoden integrieren, um Fehlalarme unter variierenden Betriebsbedingungen weiter zu reduzieren.