Data-Driven Prediction and Control of Hammerstein-Wiener Systems with Implicit Gaussian Processes

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, das Wetter vorherzusagen, aber Sie kennen die genauen physikalischen Gesetze der Atmosphäre nicht. Sie haben nur ein Tagebuch mit vergangenen Wetterdaten (Temperatur, Wind, Regen).

Die meisten modernen Methoden würden versuchen, eine riesige, undurchsichtige „Blackbox"-Formel zu finden, die einfach nur Muster in diesen Daten erkennt. Das funktioniert oft gut, aber es ist wie ein blindes Raten: Wenn die Daten einmal etwas anders aussehen als erwartet, kann die Vorhersage völlig danebenliegen.

Dieser Papier beschreibt einen clevereren Weg, um das Verhalten bestimmter komplexer Systeme (die sogenannten Hammerstein-Wiener-Systeme) vorherzusagen und zu steuern. Hier ist die Erklärung in einfachen Worten:

1. Das Problem: Ein Sandwich aus Verzerrungen

Stellen Sie sich das System als ein Sandwich vor:

Das untere Brot (Eingang): Das Signal wird zuerst durch einen „Verzerrer" geschickt (z. B. ein Sensor, der bei hohen Werten nicht mehr linear reagiert).
Die Füllung (Kern): Dann passiert etwas ganz lineares und Vorhersagbares (wie ein einfacher Feder-Masse-System).
Das obere Brot (Ausgang): Am Ende wird das Ergebnis noch einmal durch einen zweiten „Verzerrer" geschickt (z. B. ein Aktuator, der sich anders verhält als erwartet).

Das Schwierige ist: Wir kennen die Formel für das untere und das obere Brot nicht. Wir kennen nur das Sandwich als Ganzes.

2. Die alte Methode: Blindes Raten vs. Strukturwissen

Frühere Methoden haben versucht, das ganze Sandwich als eine riesige, undurchsichtige Blackbox zu lernen. Das ist wie wenn Sie versuchen, ein Rezept zu erraten, indem Sie einfach nur schmecken, ohne zu wissen, dass es aus drei Schichten besteht. Das funktioniert oft schlecht, besonders wenn Sie in die Zukunft blicken wollen (mehrere Schritte voraus).

3. Die neue Methode: Der „Geheimnis-Entschlüssler" (Implicit Gaussian Processes)

Die Autoren dieses Papiers nutzen eine Technik namens Gaussian Processes (GP), die man sich wie einen sehr klugen, vorsichtigen Wahrsager vorstellen kann. Aber sie machen ihn schlauer, indem sie ihm die Struktur des Sandwichs verraten.

Statt das ganze Sandwich auf einmal zu erraten, sagen sie dem Wahrsager:

„Hey, wir wissen, dass da drinnen eine lineare Füllung ist und zwei verzerrte Brote. Bitte lerne die Verzerrungen und die Füllung getrennt, aber so, dass sie zusammenpassen."

Das nennt man einen impliziten Ansatz. Anstatt eine direkte Formel für das Ergebnis zu suchen, suchen sie nach den Regeln, die die Teile verbinden.

4. Die kreativen Tricks

A. Die „Geister-Punkte" (Virtual Derivative Points)

Manchmal wissen wir, dass ein Teil des Systems sich nur in eine Richtung verhalten kann (z. B. wenn Sie mehr Druck auf einen Knopf geben, wird das Ergebnis nie kleiner, sondern nur größer). Das nennt man Monotonie.
Da Computer manchmal „verrückt" werden und sagen, dass mehr Druck zu weniger Ergebnis führt, fügen die Autoren virtuelle Geister-Punkte hinzu.

Analogie: Stellen Sie sich vor, Sie trainieren einen Hund. Sie sagen nicht nur „Geh links", sondern Sie stellen unsichtbare Zäune auf, die dem Hund verbieten, nach rechts zu gehen. Diese unsichtbaren Zäune (die Geister-Punkte) zwingen den Wahrsager, nur logische, monotone Vorhersagen zu treffen.

B. Der „Stabile Architekt" (Stable Spline Hyperprior)

Die lineare Füllung im Sandwich muss stabil sein (sie darf nicht ins Unendliche explodieren). Um sicherzustellen, dass der Wahrsager keine wilden, unmöglichen Formeln erfindet, geben sie ihm einen strengen Architekten als Mentor. Dieser Mentor sagt: „Nur solche linearen Muster sind erlaubt, die physikalisch stabil sind." Das verhindert, dass das Modell sich nur die Trainingsdaten auswendig lernt (Overfitting), sondern wirklich die Gesetze versteht.

5. Die Anwendung: Der autonome Fahrer

Am Ende nutzen die Autoren dieses Modell, um ein Auto (oder einen Roboter) zu steuern.

Das Ziel: Das Auto soll einer Kurve folgen.
Das Problem: Der Sensor liefert verzerrte Werte, und der Motor reagiert nicht perfekt linear.
Die Lösung: Der Algorithmus berechnet nicht nur den besten Weg, sondern berücksichtigt auch die Unsicherheit. Er sagt: „Wenn ich hier zu schnell fahre, könnte mein Sensor mich täuschen. Also bremse ich lieber etwas ab, um sicherzugehen."
Das Ergebnis: Das Auto fährt sicherer und präziser als Systeme, die nur blindes Raten nutzen.

Zusammenfassung

Statt zu versuchen, das ganze Rätsel auf einmal zu lösen, zerlegen die Autoren das Problem in seine logischen Teile (Verzerrer und lineares Kernstück). Sie nutzen mathematische Tricks (Geister-Punkte und stabile Architekten), um sicherzustellen, dass die Vorhersagen physikalisch sinnvoll bleiben.

Das Ergebnis: Ein System, das nicht nur Daten auswendig lernt, sondern die zugrunde liegende Struktur versteht. Es ist wie der Unterschied zwischen einem Schüler, der nur die Lösungen im Antwortbuch abschreibt, und einem Schüler, der wirklich die Formeln verstanden hat und sie auch auf neue, unbekannte Aufgaben anwenden kann.

Each language version is independently generated for its own context, not a direct translation.

Titel:

Datengetriebene Vorhersage und Regelung von Hammerstein-Wiener-Systemen mit impliziten Gauß-Prozessen

1. Problemstellung

Das Papier adressiert das Problem der datengetriebenen Vorhersage und Regelung von Hammerstein-Wiener (H-W) Systemen. Diese sind nichtlineare blockorientierte Modelle, die aus einem statischen Eingangs-Nichtlinearitätsteil (Hammerstein), einem linearen dynamischen Teil und einer statischen Ausgangs-Nichtlinearität (Wiener) bestehen.

Herausforderungen bestehender Ansätze:
- Black-Box-GP-Modelle: Herkömmliche Gauß-Prozess (GP) Modelle ignorieren die physikalische Struktur des Systems, was zu suboptimalen Vorhersagen und einer großen Suchraumgröße führt.
- Willems' Fundamentales Lemma (WFL): Datengetriebene Methoden basierend auf dem WFL funktionieren gut für lineare Systeme und bestimmte nichtlineare Klassen (z. B. reine Hammerstein-Systeme). Für H-W-Systeme scheitern diese Ansätze jedoch oft, da sie eine endliche Basis-Funktions-Diktion für die Nichtlinearitäten benötigen und die Ausgabe-Nichtlinearität (Wiener-Teil) nicht adäquat abbilden können. Zudem ist die Bedingung der "persistierenden Erregung" im hochdimensionalen, gelifteten Signalraum schwer zu erfüllen.
- Unsicherheitsfortpflanzung: Bei rekursiver Ein-Schritt-Vorhersage in der modellprädiktiven Regelung (MPC) ist die Fortpflanzung von Unsicherheiten über den Vorhersagehorizont hinweg rechnerisch schwierig und erfordert oft grobe Approximationen.

Das Ziel ist es, einen physik-informierten (physics-informed) Vorhersagealgorithmus zu entwickeln, der die H-W-Struktur nutzt, ohne die genauen Nichtlinearitäten oder den linearen Teil a priori zu kennen, und dies direkt aus Eingangs-Ausgangs-Daten.

2. Methodik

Der vorgeschlagene Ansatz kombiniert die Struktur von H-W-Systemen mit impliziten Gauß-Prozess-Regressionen.

Implizite Vorhersagestruktur:
Anstatt eine explizite nichtlineare ARX-Modellierung ( $y_f = f(u, y_p)$ ) zu lernen, wird die Vorhersage als implizite Funktion formuliert. Basierend auf einer Erweiterung des Willems' Lemma für den linearen Teil des Systems wird eine Beziehung aufgestellt, die Eingangs- und Ausgangstrajektorien über Matrizen $\Gamma_1$ und $\Gamma_2$ verknüpft:
$0 = [\Gamma_1 \quad \Gamma_2] \cdot \text{col}(\Psi(u), \Phi(y_p), \Phi(y_f)) - \bar{\Gamma}_2 e$
Hierbei sind $\Psi(\cdot)$ und $\Phi(\cdot)$ die unbekannten Nichtlinearitäten, die als Gauß-Prozesse modelliert werden.
Strukturierte Kernel-Designs:
Da die Nichtlinearitäten als GPs angenommen werden, wird ein strukturierter Kernel für die implizite Funktion abgeleitet. Dieser Kernel kombiniert die Kernel-Funktionen der Eingangs- und Ausgangs-Nichtlinearitäten mit den linearen Modellparametern ( $\Gamma_1, \Gamma_2$ ). Dies schränkt den Suchraum des GP auf Funktionen ein, die mit der H-W-Struktur kompatibel sind.
Berücksichtigung von Monotonie (Expectation Propagation):
Für den Wiener-Teil wird angenommen, dass die Ausgangs-Nichtlinearität monoton steigend ist. Um dies im GP zu erzwingen, werden virtuelle Ableitungspunkte (Virtual Derivative Points) in die Regression eingeführt. Mithilfe des Expectation Propagation (EP) Algorithmus wird die Wahrscheinlichkeit, dass die Ableitung an diesen Punkten positiv ist, als Likelihood-Term in die Posterior-Berechnung integriert.
Hyperparameter-Schätzung (JMAP-ML):
Die linearen Modellparameter ( $\Gamma_1, \Gamma_2$ ) werden als Hyperparameter behandelt. Um Overfitting zu vermeiden, wird eine stabile Spline-Hyperprior (Stable Spline Hyperprior) verwendet, die die Stabilität des linearen Teils erzwingt. Die Schätzung erfolgt durch Lösung eines Joint Maximum-A-Posteriori / Maximum-Likelihood (JMAP-ML) Problems.
Datengetriebene Prädiktive Regelung (DDPC):
Der implizite GP-Vorhersager wird in ein Receding Horizon Control (RHC) Schema integriert.
- Es wird eine erwartete Kostenfunktion minimiert, die sowohl den Bias (Posterior-Mittelwert) als auch die Varianz (Posterior-Kovarianz) der Vorhersage bestraft.
- Chance Constraints: Um Ausgangsbeschränkungen trotz Unsicherheit einzuhalten, werden diese durch "Constraint Tightening" (Verstärkung der Randbedingungen) basierend auf der Vorhersagevarianz und einer Lipschitz-Stetigkeitsannahme der Nichtlinearität als Wahrscheinlichkeitsbedingungen (Chance Constraints) formuliert.
- Der Ansatz vermeidet die rekursive Unsicherheitsfortpflanzung, da der Multi-Schritt-Vorhersager direkt aus dem impliziten Modell abgeleitet wird.

3. Wichtige Beiträge

Physik-informierter GP-Ansatz für H-W-Systeme: Erstmalige Formulierung eines datengetriebenen Vorhersagers für H-W-Systeme als implizite Funktion, die die Blockstruktur explizit kodiert, ohne Basis-Funktionen vorgeben zu müssen.
Implizites GP-Modell mit Monotonie-Constraint: Entwicklung eines Verfahrens, das die Monotonie der Ausgangs-Nichtlinearität durch virtuelle Ableitungspunkte und Expectation Propagation in das GP-Modell integriert.
Stabile Hyperparameter-Schätzung: Nutzung von stabilen Spline-Kernen als Hyperprior für die linearen Systemparameter, um Overfitting zu verhindern und Stabilität zu garantieren.
RHC ohne rekursive Unsicherheitsfortpflanzung: Ein Regelungsansatz, der Multi-Schritt-Vorhersagen direkt nutzt und somit das Problem der inkonsistenten Unsicherheitsfortpflanzung umgeht, das bei rekursiven Ein-Schritt-GP-MPC-Verfahren auftritt.
Chance-Constraint-Einhaltung: Herleitung einer Garantie für die Einhaltung von Ausgangsbeschränkungen mit einer vorgegebenen Wahrscheinlichkeit.

4. Ergebnisse

Die Methode wurde an numerischen Beispielen validiert und mit Black-Box-GP-Modellen, rein linearen Vorhersagern und rekursiven Ein-Schritt-GP-Modellen verglichen.

Vorhersagegenauigkeit: Der vorgeschlagene Algorithmus (Algorithm 2) erzielte signifikant geringere Vorhersagefehler (Reduktion des Medianfehlers um ca. 60–70 %) im Vergleich zu Black-Box-GP-Modellen und linearen Vorhersagern über den gesamten Vorhersagehorizont.
Wirkung der Monotonie: Die Einführung virtueller Ableitungspunkte führte zu einer korrekten Rekonstruktion der monotonen Ausgangs-Nichtlinearität, während Modelle ohne diese Punkte nicht-monotone (und damit physikalisch inkonsistente) Schätzungen lieferten.
Regelungsleistung: Im geschlossenen Regelkreis (DDPC) erreichte der vorgeschlagene Algorithmus eine Leistung, die der einer nichtlinearen MPC mit dem wahren Modell sehr nahe kam. Black-Box-Modelle und lineare Ansätze zeigten bei Spitzen der Referenzsignale Untersteuerung, da sie die Nichtlinearitäten nicht korrekt abbildeten.
Rechenaufwand: Der Hauptnachteil ist die hohe Rechenkomplexität (Trainingszeit ca. 69 s, Vorhersagezeit ca. 56 s für 50 Punkte auf einem Laptop), verglichen mit Black-Box-Modellen (0,02 s Vorhersagezeit). Dies liegt an der Optimierung der vielen Hyperparameter und der EP-Iterationen.

5. Bedeutung und Fazit

Die Arbeit stellt einen bedeutenden Fortschritt im Bereich des datengetriebenen Regelungsingenieurwesens dar, insbesondere für komplexe nichtlineare Systeme mit blockorientierter Struktur.

Theoretischer Wert: Sie überbrückt die Lücke zwischen strukturellen Systemidentifikationsmethoden (WFL) und flexiblen nichtparametrischen Methoden (GPs), indem sie die Vorteile beider Welten (Strukturwissen + Datenflexibilität) kombiniert.
Praktische Relevanz: Der Ansatz ermöglicht die präzise Regelung von Systemen (z. B. chemische Prozesse, Sensoren/Aktoren), bei denen die Nichtlinearitäten unbekannt sind, aber strukturelle Eigenschaften (wie Monotonie) bekannt sind.
Zukunftsausblick: Die Autoren sehen die hohe Rechenkomplexität als Hauptlimitierung und schlagen zukünftige Arbeiten zur Entwicklung effizienterer Optimierungsalgorithmen und zur Analyse von Stabilitätsgarantien im geschlossenen Regelkreis vor.

Zusammenfassend demonstriert das Paper, dass die Einbeziehung von physikalischem Strukturwissen in datengetriebene Modelle (Physics-Informed Machine Learning) die Vorhersage- und Regelungsleistung erheblich steigern kann, selbst wenn die genauen Systemparameter unbekannt sind.