Attention-based optimizer for symmetry finding

Ursprüngliche Autoren: Shreya Banerjee, Vinodh Raj Rajagopal Muthu, Charlie Nation, Rick P. A. Simon, Francesco Martini, Alessandro Ricottone, Federico Cerisola, Luca Dellantonio

Veröffentlicht 2026-06-01

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

CC BY 4.0

Ursprüngliche Autoren: Shreya Banerjee, Vinodh Raj Rajagopal Muthu, Charlie Nation, Rick P. A. Simon, Francesco Martini, Alessandro Ricottone, Federico Cerisola, Luca Dellantonio

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst oder gebilligt. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie versuchen, ein riesiges, unglaublich komplexes Puzzle zu lösen. Dieses Puzzle repräsentiert ein physikalisches System, wie etwa eine Ansammlung von Atomen oder Teilchen, die miteinander interagieren. In der Welt der Physik werden diese Wechselwirkungen durch etwas namens „Hamiltonian“ beschrieben.

Normalerweise suchen Wissenschaftler, um diese Systeme zu verstehen, nach Symmetrien. Stellen Sie sich eine Symmetrie wie eine verborgene Regel oder ein Muster vor, das gleich bleibt, egal wie man die Teile neu anordnet. Wenn man diese Regel findet, wird das Puzzle viel einfacher zu lösen, weil man einen Großteil der verwirrenden Details ignorieren kann.

Lange Zeit war das Finden dieser verborgenen Regeln wie die Suche nach der Nadel im Heuhaufen mit einem sehr langsamen, methodischen und starren Prozess. Wenn der Heuhaufen riesig war (was in der Quantenphysik oft der Fall ist), dauerte diese Methode ewig.

Der neue Ansatz: Eine „intelligente“ Suchmaschine

In dieser Arbeit stellen die Autoren ein neues Werkzeug vor, das Künstliche Intelligenz (KI) nutzt, um diese Sellen viel schneller zu finden. Sie nennen es einen „Attention-basierten Optimizer“.

So funktioniert es, unter Verwendung alltäglicher Analogien:

1. Das Problem: Eine Menge plaudernder Menschen

Stellen Sie sich den Hamiltonian als einen Raum voller Menschen (die „Pauli-Strings“) vor, die alle gleichzeitig reden. Sie müssen eine ganz bestimmte Person (die „Symmetrie“) finden, die in der Ecke stehen und jedem zuhören kann, ohne zu unterbrechen oder verwirrt zu werden. In physikalischen Begriffen muss diese Person mit allen anderen „kommutieren“, was bedeutet, dass ihre Anwesenheit das Gespräch nicht verändert.

Der alte Weg, diese Person zu finden, bestand darin, jeden einzelnen Menschen gegen jeden anderen einzeln zu prüfen. Das war gründlich, aber quälend langsam.

2. Die Lösung: Der „Set-Transformer“ (Der Super-Zuhörer)

Die Autoren haben ein maschinelles Lernmodell namens Set-Transformer entwickelt. Betrachten Sie dieses Modell als einen superintelligenten Zuhörer, der nicht nur Wörter hört, sondern auch die Beziehungen zwischen ihnen versteht.

Self-Attention: Genau wie man einer Gruppe von Freunden zuhören und sofort bemerken kann, wer zustimmt oder wer streitet, nutzt diese KI „Self-Attention“. Sie betrachtet alle „Menschen“ im Raum gleichzeitig und versteht, wie sie zueinander in Beziehung stehen.
Die Reihenfolge spielt keine Rolle: In einem normalen Gespräch ist die Reihenfolge der Wörter wichtig. Aber in diesem Puzzle spielt die Reihenfolge der Teilchen keine Rolle. Die KI ist so konzipiert, dass sie versteht, dass die Gruppe dieselbe bleibt, egal ob man die Menschen von links nach rechts oder von rechts nach links auflistet. Dies ist entscheidend, um das Physik-Puzzle korrekt zu lösen.

3. Das Training: Lernen durch Versuch und Irrtum

Die KI kennt die Antwort zu Beginn nicht. Sie macht eine Vermutung darüber, wer die „Symmetrie“-Person ist.

Die Bewertung (Loss Function): Das System überprüft die Vermutung. Wenn die geratene Person das Gespräch unterbricht (nicht kommutiert), ist die Punktzahl schlecht. Die KI erhält eine „Strafe“ und versucht es erneut.
Die Hürden: Die KI muss zwei Fallen vermeiden:
1. Die „Nichts-Tun“-Falle: Sie darf nicht einfach raten, dass „Stille“ (die Identität) die Antwort ist, denn das wäre eine langweilige, nutzlose Symmetrie. Das System zwingt sie dazu, ein echtes, aktives Muster zu finden.
2. Die „Vielleicht“-Falle: Die KI gibt anfangs vage Antworten (wie „zu 50 % sicher“). Das System drängt sie dazu, eine feste Entscheidung zu treffen (entweder „Ja, das ist die Symmetrie“ oder „Nein“).

4. Die „Adaptive Context Expansion“ (Der magische Boost)

Manchmal kommt die KI nicht weiter. Es ist wie ein Detektiv, der alle Hinweise im Raum untersucht hat, aber den Fall nicht lösen kann, weil die Hinweise zu spärlich oder verwirrend sind. Die KI könnte in einem „lokalen Minimum“ stecken bleiben – einem Punkt, an dem sie denkt, sie mache einen guten Job, aber eigentlich weit von der echten Antwort entfernt ist.

Um dies zu beheben, haben die Autoren eine Funktion namens Adaptive Context Expansion (ACE) hinzugefügt.

Die Analogie: Der Detektiv erkennt: „Ich stecke fest. Ich brauche mehr Hinweise.“ Also erschafft das System magischerweise neue Hinweise, indem es bestehende Hinweise kombiniert (mathematisch gesehen werden zwei „Personen“ miteinander multipliziert, um eine neue „Person“ zu erschaffen).
Das Ergebnis: Dies gibt der KI eine frische Perspektive und einen „Kick“, um aus der Sackgasse auszubrechen und die Suche fortzusetzen. Es erweitert effektiv den Raum, damit die KI mehr Verbindungen sehen kann.

Was haben sie herausgefunden?

Die Autoren testeten diesen neuen KI-Detektiv an drei Arten von Puzzles:

Zufällige Puzzles: Sie erstellten zufällige, chaotische Hamiltonians. Hier war die KI schnell, benötigte aber viel Rechenleistung (viele „Starts“ oder Versuche), um erfolgreich zu sein, besonders wenn die Puzzles sehr komplex waren. Es war wie die Suche nach der Nadel im Heusack, der ständig seine Form verändert.
Reale Physik-Puzzles (Ising-Modelle & Toric Code): Dies sind Modelle, die reale magnetische Materialien und Quantenfehlerkorrektur-Codes beschreiben.
- Der große Sieg: Bei diesen realen physikalischen Systemen war die KI unglaublich schnell – hundert oder sogar tausend Mal schneller als die alten, starren Methoden.
- Warum? Reale physikalische Systeme besitzen eine Struktur. Sie sind kein zufälliges Chaos; sie haben wiederkehrende Muster (wie ein Gitter aus Magneten). Die „Super-Zuhör“-Fähigkeit der KI ist perfekt dafür geeignet, diese Muster sofort zu erkennen. Sie musste den „magischen Boost“ (ACE) kaum verwenden, da die Hinweise bereits sehr klar waren.

Das Fazit

Diese Arbeit präsentiert einen neuen Weg, KI einzusetzen, um verborgene Regeln in komplexen physikalischen Systemen zu finden. Anstatt jede Möglichkeit einzeln zu prüfen (was langsam ist), betrachtet die KI das Gesamtbild auf einmal, lernt die Beziehungen und findet die Antwort viel schneller.

Für zufällige, chaotische Probleme: Es funktioniert gut, benötigt aber viel Rechenleistung.
Für reale physikalische Probleme: Es ist ein Game-Changer, der Lösungen fast augenblicklich im Vergleich zu traditionellen Methoden findet.

Die Autoren legen nahe, dass dies das erste Mal ist, dass maschinelles Lernen direkt verwendet wurde, um Symmetrien aus einem rohen physikalischen Modell zu finden, was die Tür für die Lösung noch schwierigerer Physikprobleme in der Zukunft öffnet.

Problemstellung

Das Finden von Symmetrien in physikalischen Systemen ist grundlegend für das Verständnis und die Lösung komplexer Modelle, insbesondere in der Quanten-Vielteilchenphysik. Während moderne computergestützte Methoden die direkte Untersuchung komplizierter Probleme ermöglichen, bleiben viele davon für Brute-Force-numerische Implementierungen (z. B. exakte Diagonalisierung) unhandlich. Obwohl Approximationsverfahren wie Tensornetzwerke existieren, beruhen diese oft auf spezifischen strukturellen Annahmen, die degenerieren, wenn das physikalische System nicht diesen Annahmen entspricht.

Bestehende Algorithmen zur Suche nach Symmetrien, wie die in den Referenzen [38–40] vorgestellte deterministische Methode, können Qubits reduzieren, indem sie ein Referenzsystem finden, in dem Symmetrien stabilisiert sind. Obwohl diese deterministischen Ansätze klassisch effizient sind (kubischer Zeitaufwand), leiden sie unter langen Zeitskalen bei Systemen mit einer großen Anzahl von Qubits. Darüber hinaus garantieren sie zwar das Finden aller Generatoren von Symmetrien, können jedoch für große Systeme rechenintensiv sein. Es besteht ein Bedarf an einer Methode, die Pauli-Symmetrien schnell direkt aus einem Eingangs-Hamiltonoperator identifizieren kann, ohne Vorwissen über die Struktur des Systems, insbesondere für physikalische Systeme, in denen Symmetrien nicht unmittelbar offensichtlich sind.

Methodik

Die Autoren schlagen ein auf maschinellem Lernen basierendes Optimierungsframework vor, das die automatisierte Symmetriesuche mit Deep Learning kombiniert. Das Herzstück des Frameworks ist eine Set-Transformer-Architektur, die gewählt wurde, weil das Problem des Findens einer Pauli-Symmetrie intrinsisch permutationsinvariant ist (die Reihenfolge der Pauli-Strings in einem Hamiltonoperator spielt keine Rolle).

1. Eingangsrepräsentation:
Der Eingangs-Hamiltonoperator $H = \sum P_i$ wird als Tableau $H_t$ dargestellt, eine Binärmatrix, bei der jede Zeile einem Pauli-String entspricht, der als $2n_q$ -dimensionaler Binärvektor (unter Verwendung der symplektischen Formalismen) kodiert ist. Diese Repräsentation bewahrt die Permutationsinvarianz des Inputs.

2. Architektur:
Das Modell besteht aus drei Hauptkomponenten:

Input Embedding und Projektion: Die Zeilen des Binärtableaus werden durch eine lineare Schicht in einen kontinuierlichen, lernbaren latenten Raum projiziert. Positions-Embeddings werden vermieden, um die Permutationsinvarianz aufrechtzuerhalten.
Set-Transformer (Encoder-Decoder):
- Encoder: Verwendet gestapelte Set Attention Blocks (SAB), die Multi-Head Attention (MHA) und zeilenweise Feed-Forward (rFF) Schichten enthalten. Der Self-Attention-Mechanismus kodiert paarweise und höherwertige Korrelationen zwischen den Pauli-Strings.
- Decoder: Projiziert die gelernten Korrelationen in einen einzelnen Kandidaten-Symmetrieverktor. Er umfasst eine Pooling Multi-head Attention (PMA) Schicht, einen SAB, Layer-Normalisierung und eine lineare Schicht, um die latente Dimension zurück auf $2n_q$ abzubilden.
- Aktivierung: Eine Sinus-Schicht gefolgt von einer lernbaren Sigmoid-Schicht bildet den kontinuierlichen Output auf approximierte Binärwerte (0 und 1) ab, welche den Kandidaten-Pauli-Symmetrie-Operator $S_p$ repräsentieren.
Adaptive Context Expansion (ACE): Um das Problem der exponentiell vielen Nicht-Lösungen im Vergleich zu den Lösungen (insbesondere bei Zufallshamiltonoperatoren) anzugehen, enthält das Framework ein ACE-Modul. Wenn der Optimierer in einem lokalen Minimum festzustecken scheint (erkannt durch oszillierende Verluste), erweitert ACE den Kontext synthetisch, indem Produkte bestehender Pauli-Strings ( $P_i P_j$ ) zum Hamiltonoperator hinzugefügt werden. Dies liefert neue Informationen, um dem Optimierer zu helfen, lokale Minima zu verlassen.

3. Optimierungsziel:
Das Framework minimiert eine benutzerdefinierte Verlustfunktion $C$ , die aus vier Termen besteht:

Kommutationsverlust ( $C_{com}$ ): Das primäre Ziel, das sicherstellt, dass der Kandidat $S(\theta)$ mit allen Termen in $H$ kommutiert. Es verwendet einen differenzierbaren Proxy, $\sin^2(\frac{\pi}{2} x)$ , für die Modulo-2-Kommutatorbedingung.
Zero-Penalty ( $C_{zp}$ ): Verhindert die triviale Lösung (den Identitätsoperator), indem Ausgaben bestraft werden, bei denen alle Elemente Null sind.
Binär-Penalty ( $C_{bin}$ ): Fördert, dass die kontinuierlichen Ausgabewerte zu binären Werten (0 oder 1) konvergieren.
Linearitäts-Regularisierer ( $C_{lin}$ ): Unterstützt die frühe Optimierung, indem Kandidaten bevorzugt werden, die nur eine begrenzte Anzahl an Malen antikommutieren, was die Multimodalität der Kommutationsverlust-Landschaft abmildert.

Die Optimierung erfolgt mit dem AdamW-Optimierer unter Anwendung von Early-Stopping-Bedingungen, die verifizieren, ob eine gültige Symmetrie gefunden wurde.

Wesentliche Beiträge

Erster ML-basierter Symmetrie-Finder: Soweit den Autoren bekannt, ist dies die erste Arbeit, die maschinelles Lernen und künstliche Intelligenz nutzt, um Symmetrien direkt aus einem Eingangs-Hamiltonoperator zu finden, ohne Vorwissen über das System oder die Symmetrie zu besitzen.
Set-Transformer-Architektur: Die Anwendung von Set-Transformern zur Kodierung von Korrelationen zwischen Pauli-Strings, wobei diese analog zu Tokens in der natürlichen Sprachverarbeitung behandelt werden, um globale Relationen zu extrahieren.
Adaptive Context Expansion: Ein neuartiges Modul, das den Eingangskontext dynamisch erhöht, um dem Optimierer zu helfen, komplexe Verlustlandschaften zu navigieren, in denen Lösungen spärlich gesät sind.
Probabilistische Beschleunigung: Das Framework bietet einen probabilistischen Ansatz, der Symmetrien signifikant schneller als deterministische Alternativen für spezifische physikalische Systeme findet, wobei eine deterministische Garantie gegen Geschwindigkeit eingetauscht wird.

Ergebnisse

Das Framework wurde für drei Kategorien von Hamiltonoperatoren getestet:

1. Zufällige Pauli-Hamiltonoperatoren:

Getestet auf 10-Qubit-Systemen mit variierenden Rängen ( $R$ ).
Der auf Attention basierende Optimierer fand Symmetrien schneller als der deterministische Algorithmus für Ränge $R=4$ bis $16$.
Für höhere Ränge skaliert die Zeitkomplexität als $O(2^{0.705R})$ für die minimale Zeit, im Vergleich zu $O(2^R)$ für den deterministischen Algorithmus bis $R=8$ .
Die Erfolgswahrscheinlichkeit sinkt mit dem Rang, was mehr parallele Starts (und damit mehr GPUs) erfordert, um eine Erfolgsrate von 90 % zu erreichen. Für $R=18$ wurde geschätzt, dass 32 parallele Starts notwendig wären.

2. Periodisches 1-D Transversalfeld-Ising-Modell:

Getestet auf Systemen mit $n_q$ von 10 bis 1400.
Die GPU-Implementierung des Frameworks fand Symmetrien etwa 225-mal schneller als den deterministischen Ansatz, während die CPU-Implementierung 1500-mal schneller war.
Die Anzahl der Iterationen, die der Optimierer benötigte, blieb mit zunehmender Systemgröße annähernd konstant (sie sättigte bei etwa 35–40), während die Anzahl der Clifford-Gates für den deterministischen Algorithmus polynomiell anstieg.
Die Fehlerrate war extrem gering (durchschnittlich $p_f \approx 0.033$ ).

3. 2-D Ising-Leiter und Toric Code:

Angewendet auf 2-D Ising-Leitern und Toric Codes (mit und ohne Magnetfelder) bis zu $n_q = 1000$ .
Das Framework zeigte einen erheblichen Vorteil gegenüber dem deterministischen Algorithmus; die GPU-Implementierung war für die Ising-Leiter etwa $10^5$ mal schneller.
Für Toric Codes nahm der Vorteil mit der Systemgröße zu. Die Skalierung des deterministischen Algorithmus wurde als schlechter als das erwartete $O(n_q^3)$ beobachtet, was wahrscheinlich auf die moderate Anzahl an Pauli-Strings zurückzuführen ist.
Der Optimierer erreichte hohe Erfolgsraten mit geringen Fehlerraten über alle getesteten Geometrien hinweg.

Beobachtung zu physikalischen vs. zufälligen Systemen:
Die Arbeit stellt fest, dass das Framework auf physikalischen Hamiltonoperatoren (Ising, Toric) außergewöhnlich gut funktioniert, da deren Tableau-Repräsentationen geordnete, lokale und repetitive physikalische Wechselwirkungen kodieren. Diese Struktur macht den Kontext unmittelbar informativ und ermöglicht es dem Optimierer, die Verlustlandschaft leicht zu navigieren. Im Gegensatz dazu fehlt Zufallshamiltonoperatoren diese Regelmäßigkeit, was mehr Rechenressourcen (Context Expansion und parallele Starts) erfordert, um Symmetrien zu finden.

Bedeutung und Ansprüche

Die Autoren behaupten, dass diese Arbeit einen wichtigen Schritt darstellt, um maschinelles Lernen auf andere Klassen von Symmetrien auszuweiten, für die keine optimalen oder deterministischen Strategien bekannt sind. Durch die Verschmelzung von maschinellem Lernen mit automatischer Sitiesuche bietet das Framework einen „erheblichen Vorteil“ in der Geschwindigkeit für physikalische Hamiltonoperatoren im Vergleich zu aktuellen deterministischen Strategien.

Die Arbeit rahmt ihren Beitrag bescheiden als Proof-of-Concept für die Verwendung von Attention-Mechanismen zur Lösung algebraischer Probleme in der Quantenphysik ein. Sie hebt hervor, dass die Methode zwar probabilistisch ist und für Zufallssysteme eine Parallelisierung erfordert, aber für physikalische Modelle, in denen systemische Wechselwirkungen im Hamiltonoperator eingebettet sind, hocheffektiv ist. Die Autoren planen, diesen Ansatz in zukünftiger Arbeit zu erweitern, um auch andere Symmetrieklassen, wie etwa Clifford-Symmetrien, zu finden.