A Multimodal Vision Transformer-based Modeling Framework for Prediction of Fluid Flows in Energy Systems

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Zu teuer, zu langsam

Stellen Sie sich vor, Sie wollen wissen, wie sich ein Gasstrahl (wie aus einem Düsenmotor) in einer Maschine verhält. Um das genau zu berechnen, nutzen Ingenieure normalerweise riesige Computer-Simulationen. Das ist aber wie der Versuch, das Wetter für die ganze Welt zu berechnen, indem man jeden einzelnen Wassertropfen einzeln verfolgt. Es dauert ewig, kostet unheimlich viel Rechenleistung und ist oft zu teuer, um es im echten Leben zu nutzen.

Die Lösung: Ein „Allrounder"-KI-Modell

Die Forscher vom Argonne National Laboratory haben eine neue Art von künstlicher Intelligenz (KI) entwickelt. Man kann sich diese KI wie einen genialen Koch vorstellen, der nicht nur ein einziges Rezept kennt, sondern Tausende von Kochbüchern gelesen hat.

Normalerweise lernt eine KI nur ein Rezept (z. B. „Wie verhält sich Gas bei Druck X?"). Wenn sich der Druck ändert, muss man die KI neu trainieren.
Diese neue KI ist anders. Sie wurde mit einem riesigen „Bücherverzeichnis" trainiert, das viele verschiedene Szenarien enthält:

Verschiedene Gitter-Größen (wie grobe oder feine Netze).
Verschiedene physikalische Gesetze (wie sich Gase bei Hitze verhalten).
Verschiedene Blickwinkel (von oben, von der Seite oder durchgeschnitten).

Wie funktioniert die KI? (Der „SwinV2"-Bauplan)

Die Architektur dieser KI nennt sich SwinV2-UNet. Das klingt kompliziert, ist aber wie ein Mosaik-Puzzle, das sich selbst neu zusammenfügt:

Das Puzzle: Die KI schaut sich das Gas nicht als ein großes Ganzes an, sondern zerlegt es in viele kleine Kacheln (Patches).
Die Fenster: Anstatt alles auf einmal zu betrachten (was den Computer überfordern würde), schaut sie sich kleine „Fenster" an. Aber sie ist schlau: Sie verschiebt diese Fenster, sodass sie auch die Ränder zwischen den Fenstern versteht. So sieht sie sowohl die kleinen Details als auch das große Ganze.
Der Kontext: Die KI bekommt extra Hinweise (wie ein Kochzettel), der ihr sagt: „Achtung, das hier ist ein grobes Bild" oder „Das hier ist eine Seitenansicht". So weiß sie, wie sie das Puzzle lösen muss, egal aus welchem Buch das Rezept kommt.

Was kann diese KI? (Zwei magische Tricks)

Die Forscher haben die KI an zwei Aufgaben getestet:

1. Die Zeitreise (Vorhersage der Zukunft)

Stellen Sie sich vor, Sie sehen ein Video von einem Gasstrahl. Die KI schaut sich den aktuellen Stand an und sagt: „Okay, in 0,01 Sekunden wird das Gas hier sein."

Das Ergebnis: Sie kann die Bewegung des Gases sehr gut vorhersagen. Sie sieht genau, wo die großen Wellen und Strömungen hingeht.
Die Schwäche: Bei winzigen, chaotischen Details (wie kleinen Wirbeln) wird sie manchmal etwas „weichgezeichnet". Sie versteht das große Bild perfekt, aber die feinsten Sandkörner im Wind sind manchmal etwas verschwommen.

2. Der Röntgenblick (Fehlende Teile erraten)

Das ist der coolste Teil. Stellen Sie sich vor, Sie haben nur eine Röntgenaufnahme von der Seite eines Gasstrahls (eine flache Projektion).

Die Aufgabe: Die KI soll aus diesem flachen Bild erraten, wie das Gas in der Mitte aussieht (ein Schnitt durch die Mitte) oder wie es von oben aussieht.
Das Ergebnis: Es ist, als würde die KI aus einem Schattenriss das ganze 3D-Objekt rekonstruieren. Sie kann aus einer „Dichte-Karte" (wie schwer das Gas ist) die Geschwindigkeit berechnen. Oder sie kann aus einem Bild von vorne ein Bild von der Seite machen.
Die Einschränkung: Wenn sie etwas erraten muss, das sie gar nicht sehen kann (z. B. Bewegung, die senkrecht zur Kamera geht), wird sie unsicherer. Aber für alles, was im Bild liegt, ist sie erstaunlich gut.

Warum ist das wichtig?

Früher mussten Ingenieure stundenlang warten, bis ihre Computer die Simulation fertig hatten. Mit dieser KI können sie sofort sehen, wie sich das Gas verhält.

Sie können schnell neue Motoren entwerfen.
Sie können verschiedene Szenarien durchspielen, ohne jedes Mal einen neuen, teuren Computerlauf zu starten.
Sie können Daten aus verschiedenen Quellen (grobe Messungen, feine Messungen, verschiedene Blickwinkel) mischen und trotzdem ein klares Bild bekommen.

Fazit

Die Forscher haben einen Beweis geliefert, dass man moderne KI-Modelle (die eigentlich für Bilder wie Fotos entwickelt wurden) erfolgreich auf komplexe Physik-Probleme anwenden kann. Es ist wie ein universeller Dolmetscher, der die Sprache der Physik lernt und uns hilft, Energie-Systeme effizienter und schneller zu bauen.

Kurz gesagt: Statt jeden einzelnen Wassertropfen zu zählen, hat die KI gelernt, den Fluss des Flusses zu verstehen – und das viel schneller als jeder Supercomputer bisher.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Simulation komplexer Strömungen in Energiesystemen (z. B. Hochdruck-Gasinjektion in Verbrennungsmotoren) mittels herkömmlicher Computational Fluid Dynamics (CFD) ist aufgrund starker Nichtlinearitäten, Multi-Physik-Interaktionen und Multi-Skalen-Effekte extrem rechenintensiv und teuer.
Herausforderungen bestehen darin:

Hohe Kosten: Traditionelle CFD-Simulationen sind für Echtzeit-Anwendungen oder umfangreiche Optimierungen oft unpraktisch.
Generalisierungsfähigkeit: Bestehende wissenschaftliche Machine-Learning-Modelle (z. B. DeepONet, Fourier Neural Operators) sind oft pro Anwendung trainiert (ein Netz pro Geometrie oder Konfiguration) und generalisieren schlecht auf neue Bedingungen oder Physik-Regime.
Datenheterogenität: Reale ingenieurtechnische Probleme beinhalten Daten aus verschiedenen Quellen, Auflösungen und Modellen (z. B. RANS vs. LES, ideale vs. reale Gase), die in einem einheitlichen Rahmen verarbeitet werden müssen.

Das Ziel ist die Entwicklung eines datengetriebenen Surrogatmodells, das als „Foundation Model" fungiert: Es soll auf heterogenen, multi-fidelity Datensätzen trainiert werden, um generalisierte Darstellungen zu lernen, die auf verschiedene Aufgaben (Vorhersage, Rekonstruktion) und physikalische Regime anwendbar sind.

2. Methodik

Datengrundlage

Das Framework wurde auf einem kuratierten Datensatz von CFD-Simulationen eines Argon-Jets trainiert, der bei 35 bar in eine ruhende Stickstoffumgebung (5 bar) injiziert wird. Dies dient als nicht-brennendes Analogon für Kraftstoffeinspritzungen.
Der Datensatz umfasst sieben verschiedene Fälle mit systematischer Variation von:

Gitterauflösung: Grob (Coarse) und Fein (Fine).
Turbulenzmodelle: Reynolds-Averaged Navier-Stokes (RANS) und Large-Eddy Simulation (LES).
Zustandsgleichungen: Ideale Gase (IG) und Reale Gase (RG).
Schmidt-Zahlen: Variationen zur Untersuchung der differentiellen Diffusion.
Modi (Modalitäten): Aus den 3D-Daten wurden drei 2D-Schnitte abgeleitet:
1. Longitudinaler Schnitt: Horizontale Ebene durch die Jet-Mitte.
2. Longitudinale Projektion: Linien-sicht-integrierte Projektion (ähnlich Röntgenradiographie).
3. Transversaler Schnitt: Querschnitte an spezifischen axialen Positionen (z = 2 mm und 10 mm).

Modellarchitektur

Das Kernstück ist ein hierarchischer Vision Transformer auf Basis der SwinV2-UNet-Architektur (Encoder-Decoder).

Backbone: Nutzt Shifted Window Attention (SwinV2), um den Rechenaufwand von quadratisch auf linear in Bezug auf die Anzahl der Patches zu reduzieren und gleichzeitig lokale sowie globale Abhängigkeiten zu erfassen.
Encoder-Decoder: Der Encoder erstellt eine Multi-Resolution-Hierarchie durch Patch-Merging. Der Decoder rekonstruiert die hohe Auflösung durch Patch-Expansion. Skip-Connections (über ConvNeXt-Blöcke) erhalten feine räumliche Details.
Multimodale Konditionierung: Um das Modell an verschiedene Datenquellen anzupassen, werden Hilfs-Tokens (Auxiliary Embeddings) verwendet:
- Zeit-Token: Kodiert den Zeitinkrement $\Delta t$ .
- Datenquellen-Token (DST): Ein One-Hot-Vektor, der Auflösung, Modus (Schnitt/Projektion), Turbulenzmodell und Zustandsgleichung kodiert. Diese Tokens werden elementweise zu allen Patch-Tokens addiert, sodass ein einziges Modell verschiedene physikalische Regime verarbeiten kann.

Aufgaben

Das Framework löst zwei Hauptaufgaben mit derselben Architektur:

Spatiotemporale Vorhersage (Autoregressiv): Vorhersage des Strömungszustands zum Zeitpunkt $t + \Delta t$ basierend auf $t$ . Das Modell lernt die Residuen ( $\Delta u$ ).
Feature-Transformation: Inferenz nicht beobachteter Felder/Ansichten aus beobachteten Daten innerhalb desselben Zeitfensters (z. B. Rekonstruktion von Geschwindigkeitsfeldern aus Dichtefeldern oder Umwandlung zwischen Projektionen und Schnitten).

3. Wichtige Beiträge

Einheitliches Multimodales Framework: Entwicklung eines einzigen Transformer-Modells, das erfolgreich über verschiedene Gitterauflösungen, Turbulenzmodelle (RANS/LES) und Zustandsgleichungen generalisiert.
Kontextuelle Anpassung: Die Einführung von Hilfs-Tokens ermöglicht es dem Modell, sein Verhalten dynamisch an die spezifische Datenmodalität und den physikalischen Kontext anzupassen, ohne separate Modelle pro Konfiguration zu benötigen.
Anwendung auf reale Energiesysteme: Demonstration der Machbarkeit von Vision-Transformern für komplexe, kompressible Strömungen in der Energietechnik (nicht nur idealisierte PDEs).
Dualer Einsatz: Beweiskraft für die Eignung des Modells sowohl für zeitliche Vorhersagen (Rollouts) als auch für räumliche/rekonstruktive Aufgaben (Cross-Modal-Inferenz).

4. Ergebnisse

Spatiotemporale Vorhersage

Das Modell kann die großskalige Evolution und die Kantenübergänge des Jets über mehrere Zeitschritte hinweg genau vorhersagen.
Multi-Step-Training: Modelle, die mit Multi-Step-Rollouts (5 Schritte) trainiert wurden, erfassen intrinsische Strömungsdetails und feine Strukturen besser als Modelle mit Single-Step-Training, obwohl der Fehler über längere Horizonte akkumuliert.
Pushforward-Strategie: Die Verwendung der Pushforward-Methode (Verlust nur am Endpunkt) führt zu kohärenteren Multi-Step-Rollouts als reine autoregressive Vorhersage.
Limitierung: Kleine turbulente Details werden oft geglättet; die Wiederherstellung hochfrequenter Merkmale bleibt eine Herausforderung.

Feature-Transformation

Dichte zu Geschwindigkeit: Das Modell kann Geschwindigkeitskomponenten aus Dichtefeldern inferieren. Die in der Ebene liegenden Komponenten ( $u, w$ ) werden gut erfasst, während die senkrechte Komponente ( $v$ ) aufgrund der inhärenten Mehrdeutigkeit bei 2D-Projektionen weniger genau ist.
Kreuz-Modale Rekonstruktion: Das Modell kann erfolgreich longitudinale Projektionen in transversale Schnitte umwandeln (und umgekehrt) sowie lokale Schnitte in globale Projektionen aggregieren.
Räumlicher Transfer: Die Übertragung von Strömungsstrukturen zwischen verschiedenen axialen Ebenen (z. B. von $z=2$ mm auf $z=10$ mm) gelingt, wobei die zeitliche Dynamik (z. B. wann der Jet eine Ebene erreicht) korrekt erfasst wird.
Glättungseffekt: Bei allen Transformationsaufgaben ist ein Glättungseffekt zu beobachten, was typisch für inverse Probleme mit Informationsverlust ist, aber die globale Topologie bleibt erhalten.

5. Bedeutung und Ausblick

Diese Arbeit stellt einen Proof-of-Concept dar, wie große Vision-Transformer-Modelle anpassbar sind, um die prädiktive Modellierung komplexer Strömungssysteme in der Energietechnik voranzutreiben.

Effizienz: Die Modelle bieten das Potenzial, rechenintensive CFD-Simulationen durch schnelle, datengetriebene Surrogate zu ersetzen oder zu ergänzen.
Generalisierung: Sie zeigen, dass Foundation-Modelle für PDEs über die Grenzen idealisierter Systeme hinauswachsen und reale, heterogene Ingenieursdaten verarbeiten können.
Zukünftige Arbeiten: Geplant ist die Skalierung der Architektur durch effiziente Parallelisierungstechniken (SWiPe), die Integration probabilistischer Modellierungsansätze (z. B. OmniCast) und die Anpassung an komplexe Geometrien durch Graph- oder Point-Cloud-Repräsentationen anstelle von festen Patches.

Zusammenfassend demonstriert das Paper, wie moderne Transformer-Architekturen genutzt werden können, um robuste, generalisierbare und multimodale Vorhersagemodelle für kritische Anwendungen in Energiesystemen zu entwickeln.