Ursprüngliche Autoren: D. Sorokin, M. Stokolesov, A. Granovskiy, I. Prokofyev, E. Adishchev, M. Nurgaliev, E. Khayrutdinov, G. Subbotin, R. Clark, D. Orlov

Veröffentlicht 2026-05-18

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: D. Sorokin, M. Stokolesov, A. Granovskiy, I. Prokofyev, E. Adishchev, M. Nurgaliev, E. Khayrutdinov, G. Subbotin, R. Clark, D. Orlov

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich einen Tokamak (eine Maschine, die entwickelt wurde, um Fusionsenergie zu erzeugen) als einen riesigen, unsichtbaren, extrem heißen Ballon vor, der aus Plasma besteht. Um zu verhindern, dass dieser Ballon die Wände berührt und die Maschine schmilzt, müssen Wissenschaftler ihn ständig umformen und in spezifische Formen wie eine Erdnuss, einen Kreis oder eine Bohne drücken.

Das von Ihnen geteilte Papier beschreibt einen neuen „intelligenten Piloten" (einen KI-Agenten), der diesen Ballon steuert. Hier ist die Funktionsweise, erklärt durch einfache Analogien.

1. Das Problem: Der alte Weg vs. der neue Weg

Der alte Weg (Der Zwei-Schritte-Tanz):
Traditionell war die Steuerung des Plasmas wie ein Zwei-Schritte-Tanz. Zuerst musste ein Team von Experten (ein Computerprogramm) alle Sensoren auswerten und genau herausfinden, welche Form der Ballon hatte. Zweitens würde ein separater Regler diese Form nehmen und den Magneten sagen, wie sie sich bewegen sollen.

Der Fehler: Wenn einer der Sensoren kaputt ging oder eine falsche Messung lieferte, scheiterte der erste Schritt, und der gesamte Tanz kam zum Stillstand. Außerdem war der Zwei-Schritte-Prozess zu langsam und starr, wenn der Ballon schnell seine Form ändern musste.

Der neue Weg (Der intuitive Athlet):
Die Autoren schufen einen Reinforcement-Learning-(RL-)Agenten. Stellen Sie sich diesen Agenten als eine Turnerin vor, die Tausende Male geübt hat. Anstatt anzuhalten, um zuerst die Form zu berechnen, spürt die Turnerin den Wind und die Spannung und weiß sofort, wie sie sich bewegen muss.

Der Durchbruch: Diese KI lernt, direkt von „Sensormesswerten" zu „Magnetteilbefehlen" zu gehen, ohne dass sie zuerst die Form explizit berechnen muss. Sie lernt, die Physik direkt zu handhaben.

2. Die Superkraft: Defekte Sensoren ignorieren

In der realen Welt brechen Sensoren. Vielleicht wird ein Kabel durchtrennt oder eine Sonde verschmutzt.

Die Analogie: Stellen Sie sich vor, Sie spielen ein Videospiel, bei dem Ihr Controller bei jedem Start eines neuen Levels zufällig einige Tasten verliert. Die meisten Spieler würden aufgeben.
Der Trick der KI: Die Forscher trainierten diese KI, indem sie während des Trainings zufällig 30 % ihrer Sensoren „blind" machten. Sie sagten der KI nicht, welche Sensoren defekt waren; sie ließen sie einfach verstummen.
Das Ergebnis: Die KI lernte, das Spiel perfekt zu spielen, selbst wenn sie die Hälfte des Bildschirms nicht sehen konnte. Sie lernte, sich auf die verbleibenden Sensoren zu verlassen, um die Form zu ermitteln. Das bedeutet, dass wenn ein Sensor während eines echten Experiments ausfällt, die KI nicht in Panik gerät oder einen Notfallplan braucht; sie arbeitet einfach mit dem, was sie hat, weiter.

3. Das Training: Der „Form-Fitnessstudio"

Um die KI zu unterrichten, zeigten sie ihr nicht nur eine Form. Sie schufen ein „Fitnessstudio" mit 120 verschiedenen, komplexen Plasmformen (wie verschiedene Ballonkonfigurationen).

Die Übung: Alle viertel Sekunden wurde die KI angewiesen, zu einer völlig neuen Form zu wechseln. Sie musste lernen, wie sie von einer „Erdnuss" zu einer „Bohne" und dann zu einem „Kreis" sofort übergehen konnte.
Das Ziel: Die KI lernte, jede Transition zwischen diesen Formen zu bewältigen, nicht nur eine vorab geplante Route. Dies wird als „Zero-Shot"-Lernen bezeichnet, was bedeutet, dass sie neue, unbekannte Sequenzen bewältigen kann, ohne zusätzliches Training zu benötigen.

4. Die „Spickzettel"-Methode (Asymmetrisches Training)

Hier ist ein cleverer Trick, den die Forscher einsetzten, um das Lernen zu beschleunigen:

Der Akteur (Der Spieler): Während des Trainings sieht die KI nur das, was die reale Maschine sieht (die Sensoren).
Der Kritiker (Der Trainer): Der „Trainer"-KI hingegen liegt ein „Spickzettel" vor. Sie kann die perfekte Wahrheit darüber sehen, was das Plasma tut (die exakte Form, die exakte Geschwindigkeit), was die reale Maschine nicht sehen kann.
Wie es hilft: Der Trainer sagt dem Spieler: „Du machst es gut, aber du bist eigentlich 2 Zentimeter daneben." Dies hilft dem Spieler, viel schneller zu lernen. Sobald das Training abgeschlossen ist, wird der Spieler ohne den Trainer eingesetzt, hat aber die Lektionen bereits gelernt.

5. Der „Nebenjob" (Der auxiliary Head)

Die KI hat eine kleine zusätzliche Aufgabe: Während sie die Magnete steuert, versucht sie auch, die Form des Plasmas am Rande zu erraten.

Warum? Dies wirkt wie ein „Stützrad". Es zwingt die KI, ein klares mentales Bild der Form zu behalten, was das gesamte System stabiler macht. Es hilft Wissenschaftlern auch zu verstehen, auf welche Sensoren die KI achtet, und wirkt wie ein Fenster in das Gehirn der KI.

6. Der Realwelt-Test

Die Forscher testeten dies nicht nur in einer Computersimulation. Sie nahmen die trainierte KI und setzten sie auf den tatsächlichen DIII-D Tokamak (eine echte Fusionsmaschine in Kalifornien).

Das Ergebnis: Die KI steuerte das reale Plasma erfolgreich, bewegte es von einer Form zur anderen und hielt es stabil, selbst wenn einige Sensoren effektiv „ignoriert" oder maskiert wurden. Sie performte genauso gut wie und in mancher Hinsicht robuster als die traditionell von Menschen entwickelten Regler.

Zusammenfassung

Dieses Papier präsentiert ein selbstfahrendes Auto für Fusionsenergie.

Es lernt durch das Üben mit defekten Sensoren, sodass es nie abstürzt, wenn ein Sensor ausfällt.
Es lernt, Formen sofort zu ändern, nicht nur eine stabile Position zu halten.
Es wurde in einem hochfidelien Simulator trainiert, aber fuhr das echte Auto (die DIII-D-Maschine) erfolgreich, ohne neu abgestimmt werden zu müssen.

Das ultimative Ziel ist es, Fusionskraftwerke sicherer und zuverlässiger zu machen, indem ein Regler eingesetzt wird, der die chaotische, unvorhersehbare Realität der realen Welt bewältigen kann.

Technische Zusammenfassung: Dynamische Plasmagestaltregelung mit beliebigen Sensor-Teilmenge

Problemstellung

Die präzise Regelung der Plasmagestalt ist entscheidend für den sicheren und effizienten Betrieb von Tokamaks, da sie den Energieeinschluss, die Wärmelastverteilung und die Stabilität beeinflusst. Klassische Regelsysteme, wie sie auf DIII-D und JET eingesetzt werden, nutzen typischerweise eine zweistufige Pipeline: Zuerst schätzt ein Echtzeit-Gleichgewicht-Rekonstruktionscode (z. B. RTEFIT) die Plasmagrenze aus magnetischen Diagnosen ab; zweitens gibt ein linearer Multi-Input-Multi-Output-Regler (MIMO) Spulenbefehle aus, um Zielgestalten nachzufahren.

Dieser traditionelle Ansatz stößt auf drei wesentliche Einschränkungen:

Empfindlichkeit gegenüber Sensorausfällen: Rekonstruktionsalgorithmen sind für einen vollständigen Sensorsatz ausgelegt; fehlende Diagnosen verschlechtern die Rekonstruktionsgenauigkeit auf unvorhersehbare Weise und beeinträchtigen die nachgelagerte Regelung.
Begrenzter dynamischer Bereich: Lineare Regler werden oft um ein nominelles Gleichgewicht herum abgestimmt und haben Schwierigkeiten mit großen, dynamischen Gestaltvariationen oder Übergängen zwischen Betriebsregimen.
Mangelnde Anpassungsfähigkeit: Die Bewältigung neuer Ausfallmuster erfordert typischerweise manuelle Gewichtsaktualisierungen zwischen den Schüssen, ohne die Fähigkeit zur Anpassung während eines Schusses.

Während neuere Reinforcement-Learning-Ansätze (RL) eine End-to-End-Regelung demonstriert haben, gehen sie allgemein von einem festen, voll funktionsfähigen Diagnosesatz aus und zielen auf statische Sollwerte oder vorab geplante Sequenzen ab, wobei sie dynamische Zielvorgaben oder eine teilweise Sensorverfügbarkeit nicht adressieren.

Methodik

Die Autoren stellen einen einzelnen Reinforcement-Learning-Agenten (RL) vor, der gleichzeitig die dynamische Gestattnachführung, beliebige Sensor-Teilmenge und partielle Beobachtbarkeit adressiert.

Umgebung und Trainingsverteilung

Der Agent wird in NSFsim trainiert, einem hochfiden Tokamak-Simulator, der für das Gerät DIII-D konfiguriert ist und die gesamte Dynamik des Stromversorgungssystems einschließlich Chopper-Schaltungen und Spulenstrombeschränkungen modelliert.

Zielraum: Anstelle einer gleichmäßigen zufälligen Stichprobenziehung im 11-dimensionalen Gestaltzielraum (was physikalisch unerreichbare Konfigurationen riskiert), haben die Autoren einen Datensatz mit 120 experimentellen Lower-Single-Null (LSN)-Gestalten zusammengestellt, die aus über 329.000 DIII-Gleichgewichten (2014–2020) stammen. Ein gieriges Diversitätskriterium stellte sicher, dass diese Gestalten den gesamten Betriebsbereich abdecken.
Dynamische Übergänge: Während des Trainings wird die Zielgestalt alle 0,25 Sekunden zufällig aus diesem Datensatz neu stichprobenartig ausgewählt, wodurch der Agent vielfältigen Übergängen über den gesamten Gestaltbereich hinweg ausgesetzt wird.

Diagnose-Dropout und Robustheit

Um Robustheit gegenüber Sensorausfällen ohne explizite Fehlererkennung oder Modusschaltung zu erreichen, wenden die Autoren eine Diagnose-Dropout-Strategie an:

Zu Beginn jedes Trainingsepisoden wird eine binäre Maske durch unabhängiges Nullsetzen jedes der 114 magnetischen Diagnosekanäle (71 Sonden + 43 Schleifen) mit einer Wahrscheinlichkeit von $p=0,3$ stichprobenartig erzeugt.
Der Agent erhält keinen expliziten Indikator dafür, welche Sensoren fehlen; er muss das Fehlen von Signalen aus dem Muster der mit dem Mittelwert substituierten Eingaben ableiten.
Dies ergibt eine einzige Richtlinie, die unter beliebigen Sensor-Teilmenge elegant funktionieren kann.

Architektur: Asymmetrischer Actor-Critic mit Hilfsverlust

Der Agent nutzt eine asymmetrische Actor-Critic-Architektur, um partielle Beobachtbarkeit zu handhaben:

Actor: Empfängt einen 146-dimensionalen Beobachtungsvektor, der magnetische Sonden, Flusschleifen, Spulenströme, Plasmastrom ( $I_p$ ) und den 11-dimensionalen Gestaltzielwert umfasst. Magnetische Kanäle können maskiert sein.
Critic (Privilegiert): Empfängt die Beobachtung des Actors, erweitert um „privilegierte" Informationen, die nur in der Simulation verfügbar sind: vorzeichenbehaftete Differenzen zwischen aktuellen und Ziel-Pivotpunkten ( $\Delta p$ ) und X-Punkt-Positionen ( $\Delta x$ ) sowie Zeitableitungen aller Eingaben. Dies unterstützt die Werteschätzung unter partieller Beobachtbarkeit.
Algorithmus: Der Agent wird mit Truncated Quantile Critics (TQC) trainiert, einem distributionellen Off-Policy-RL-Algorithmus, der Überabschätzung verzerrt reduziert.
Hilfs-Gestalt-Rekonstruktionskopf: Ein linearer Vorhersagekopf, der an die vorletzte Schicht des Actors angehängt ist, sagt den Pivotpunkt-Fehler ( $\Delta p$ $Δ p$ ) aus rohen Diagnosen voraus. Dieser Verlust ( $L_{aux}$ $L_{a ux}$ ) dient zwei Zwecken:
1. Trainingsstabilisierung: Er verankert die interne Darstellung des Actors bei einer physikalisch interpretierbaren geometrischen Größe und reduziert vorzeitige Episodenbeendigungen.
2. Interpretierbarkeit: Er ermöglicht eine gradientenbasierte Analyse der Sensorbedeutung und fungiert als eigenständiges Gestalt-Rekonstruktionsmodul.

Belohnungsfunktion

Die Belohnung kombiniert die Qualität der Gestattnachführung und die X-Punkt-Stabilität mittels eines softmax-gewichteten Durchschnitts. Sie bestraft Abweichungen von acht Pivotpunkten auf der Last Closed Flux Surface (LCFS) und der X-Punkt-Position und nutzt einen Soft-Minimum-Mechanismus, um zu verhindern, dass der Agent ein Ziel opfert, um das andere zu optimieren.

Wichtige Ergebnisse

Simulationsleistung (NSFsim)

Dynamische Nachführung: Auf einer zurückgehaltenen statischen Konfiguration erreichte der Agent einen mittleren Gestaltfehler ( $\bar{d}_{shape}$ ) von 2,01 cm. Er folgte erfolgreich dynamischen Trajektorien zu extremen Konfigurationen (z. B. maximale Dehnung, rechtester X-Punkt), wobei die Fehler an den Grenzen des Spulenstrombereichs aufgrund von Spannungsgrenzen zunahmen.
Diagnose-Robustheit: Ein Agent, der mit $p=0,3$ Dropout trainiert wurde, erreichte einen mittleren $\bar{d}_{shape}$ von 4,1 cm auf einer festen Sensormaske, die tatsächlichen DIII-D-Ausfällen entspricht. Dies ist nur 0,7 cm schlechter als eine „Orakel"-Richtlinie, die speziell für diese feste Maske trainiert wurde, was zeigt, dass die einzelne Richtlinie auf beliebige Teilmenge ohne vorheriges Wissen über das Ausfallmuster generalisiert.
Ablationsstudien:
- Das Entfernen des asymmetrischen Critics (privilegierte Informationen) verursachte den größten Leistungsabfall ( $\bar{d}_{shape}$ stieg von 4,0 auf 4,9 cm).
- Das Entfernen des Hilfsverlusts änderte die mittlere Belohnung nicht signifikant, erhöhte jedoch die Standardabweichung der Episodenlänge von 0,7 auf 21,0 Schritte, was seine Rolle als Trainingsstabilisator bestätigt.
- Der Ersatz von TQC durch SAC führte zu niedrigeren Belohnungen und einer signifikant höheren Varianz in der X-Punkt-Regelung, mit gelegentlichem vollständigem Kontrollverlust bei schwierigen Gestalten.

Physikalischer Einsatz (DIII-D)

Die Richtlinie wurde auf dem Tokamak DIII-D für zwei dynamische Manöver eingesetzt:

Radialer X-Punkt-Sweep: Erfolgreiche Nachführung eines Ziel-X-Punkts, der sich von 1,36 m auf 1,31 m bewegte.
Plasma-Schwerpunktverschiebung: Erfolgreiche Verschiebung des Plasmazentrums zwischen zwei angepassten Entladungen ( $R_c$ von 1,685 m auf 1,660 m).

In physikalischen Experimenten hielt der RL-Agent das Plasma während des gesamten Vorgangs im Lower-Single-Null-Regime. Während der klassische Isoflux-Regler im GSevolve-Simulator einen niedrigeren stationären Fehler aufwies (aufgrund einer spezifischen Abstimmung für diesen Betriebspunkt), zeigte der RL-Agent eine überlegene Robustheit gegenüber den spezifischen Diagnose-Dropout-Bedingungen, die im Experiment vorlagen. Eine „Sim-zu-Real"-Lücke wurde bei der X-Punkt-Nachführfehler für eine Entladung beobachtet, die auf systematische Verschiebungen in den rohen magnetischen Messwerten zurückgeführt wurde, die EFIT absorbiert, die jedoch die Eingaben der RL-Richtlinie verschieben.

Sensorbedeutung

Die gradientenbasierte Analyse des Hilfskopfs ergab, dass die Richtlinie am stärksten auf magnetische Diagnosen in der Nähe der 8 Ziel-Pivotpunkte und der inneren Begrenzerwand angewiesen ist. Die Bedeutungsrangfolgen waren über verschiedene Dropout-Trainingsraten hinweg stabil, was darauf hindeutet, dass die Struktur die Aufgabengeometrie widerspiegelt und nicht Trainingsrauschen.

Bedeutung und Behauptungen

Die Arbeit behauptet, die erste End-to-End-Regelmethode vorzustellen, die gleichzeitig folgende Aspekte adressiert:

Abdeckung der Trainingsverteilung: Verwendung eines kuratierten Datensatzes experimenteller Gestalten, um dem Fluch der Dimensionalität zu entgehen und gleichzeitig den Betriebsbereich abzudecken.
Zero-Shot-Generalisierung: Die Fähigkeit, unbekannte dynamische Gestalt-Trajektorien ohne trajektorien-spezifisches Feinabstimmen nachzufahren.
Diagnose-Robustheit: Eine einzelne Richtlinie, die unter beliebigen Teilmenge magnetischer Diagnosen ohne Backup-Regler oder explizite Fehlererkennungslogik funktioniert.

Die Autoren betonen, dass der Hilfs-Gestalt-Rekonstruktionskopf nicht nur das Training stabilisiert, sondern auch einen Mechanismus für Interpretierbarkeit bietet, der die Analyse ermöglicht, welche Sensoren Regelentscheidungen antreiben. Die erfolgreiche Übertragung vom NSFsim-Simulator auf den unabhängigen GSevolve-Simulator und schließlich auf das physikalische Gerät DIII-D validiert das Potenzial des Ansatzes für den realen Tokamak-Betrieb unter variablen Diagnosebedingungen.

Dynamic Plasma Shape Control with Arbitrary Sensor Subsets