Minor Embedding for Quantum Annealing with Reinforcement Learning

Diese Arbeit stellt einen Ansatz vor, der Reinforcement Learning mit Proximal Policy Optimization nutzt, um das rechenintensive Problem des Minor-Embeddings für Quanten-Annealing effizient und skalierbar auf verschiedenen Hardware-Topologien wie Chimera und Zephyr zu lösen.

Riccardo Nembrini, Maurizio Ferrari Dacrema, Paolo Cremonesi

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Architekt, der einen riesigen, komplexen Stadtplan (das Rechenproblem) entworfen hat. Ihr Ziel ist es, diese Stadt auf ein sehr spezifisches, aber etwas chaotisches Grundstück zu bauen, das von einem besonderen Baumeister (dem Quantenprozessor) bereitgestellt wird.

Das Problem: Der Baumeister hat nur bestimmte Straßenverbindungen erlaubt. Ihr Stadtplan hat aber Verbindungen, die auf diesem Grundstück gar nicht direkt möglich sind.

Hier kommt das „Minor Embedding" ins Spiel. Es ist wie ein Übersetzer oder ein Umzugsmanager. Er muss Ihren Stadtplan so umschreiben, dass er auf das Grundstück passt. Er muss vielleicht ein einziges Haus in Ihrem Plan durch eine ganze Reihe von Häusern auf dem Grundstück ersetzen, die alle mit Seilen verbunden sind, damit sie wie ein einziges Haus funktionieren.

Das Problem bisher:
Bisher haben Computerprogramme versucht, diese Umplanung mit starren Regeln zu lösen. Das war oft langsam, teuer und funktionierte nur gut, wenn der Stadtplan genau so aussah, wie es die Regeln vorsahen. Wenn der Plan zu groß oder zu kompliziert wurde, geriet das Programm ins Schleudern.

Die neue Lösung: Ein lernender Roboter (Reinforcement Learning)
Die Autoren dieses Papers haben einen neuen Ansatz gewählt: Sie haben einen KI-Agenten (einen digitalen Roboter) trainiert, der wie ein kleines Kind lernt, das ein Puzzle löst.

  1. Lernen durch Versuch und Irrtum: Der Roboter bekommt das Puzzle (den Stadtplan) und das Grundstück. Er darf nicht einfach einen fertigen Plan ablesen. Stattdessen muss er Schritt für Schritt entscheiden: „Wo baue ich das nächste Haus hin?"
  2. Belohnungssystem: Wenn er einen guten Schritt macht, bekommt er Punkte. Wenn er einen schlechten Schritt macht (z. B. zu viele Häuser für ein einziges Zimmer verwendet), verliert er Punkte.
  3. Der Trainer (PPO): Der Algorithmus, der den Roboter trainiert, heißt „Proximal Policy Optimization". Man kann sich das wie einen strengen, aber fairen Trainer vorstellen, der dem Roboter sagt: „Gut gemacht, aber versuche es beim nächsten Mal ein bisschen vorsichtiger, ohne deine ganze Strategie zu ändern."

Was haben sie herausgefunden?

  • Der neue Baustoff ist besser: Es gibt zwei Arten von Grundstücken. Das alte (Chimera) ist wie ein altes, enges Dorf mit wenigen Straßen. Das neue (Zephyr) ist wie eine moderne Stadt mit vielen Autobahnen und Verbindungen.

    • Auf dem alten Grundstück hatte der Roboter Schwierigkeiten, besonders bei großen Städten. Er verhedderte sich oft in den Seilen.
    • Auf dem neuen Grundstück (Zephyr) war der Roboter ein Star! Er konnte die Städte schnell und effizient bauen, weil die vielen Straßenverbindungen ihm mehr Spielraum gaben.
  • Der Trick mit dem Spiegeln (Data Augmentation): Um dem Roboter das Lernen zu erleichtern, haben die Forscher das Puzzle während des Trainings immer wieder gedreht, gespiegelt und die Farben vertauscht.

    • Die Analogie: Stellen Sie sich vor, Sie lernen, ein Auto zu fahren. Wenn Sie nur auf einer geraden Straße üben, können Sie nicht gut parken. Wenn Sie aber auf verschiedenen Straßen, mit Gegenverkehr und in Kurven üben, werden Sie ein besserer Fahrer. Genau das haben sie mit dem Roboter gemacht. Bei zufälligen, unregelmäßigen Stadtplänen half dieser Trick enorm, damit der Roboter nicht verwirrt wird.

Das Fazit für die Zukunft:
Diese Forschung zeigt, dass wir KI nicht nur benutzen können, um Probleme zu lösen, sondern auch um die Werkzeuge zu erfinden, mit denen Quantencomputer überhaupt erst Probleme lösen können.

Der Roboter ist noch nicht perfekt für die allergrößten, kompliziertesten Städte (er braucht noch mehr Übung und vielleicht eine bessere „Gehirnstruktur", wie ein Graph-Neural-Netzwerk). Aber auf den modernen, gut vernetzten Quanten-Chips der Zukunft könnte diese lernende KI die Schlüsselrolle spielen, um die volle Leistung dieser Maschinen freizusetzen.

Kurz gesagt: Statt starre Regeln zu schreiben, haben die Forscher eine KI trainiert, die selbst lernt, wie man Quantencomputer effizient nutzt – und zwar besonders gut auf den neuesten, modernsten Chips.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →