Geometric Reasoning in the Embedding Space

Die Studie zeigt, dass Graph Neural Networks und Transformers geometrische Schlussfolgerungen treffen können, indem sie während des Trainings eine zweidimensionale Gitterstruktur im Embedding-Space rekonstruieren, wobei Graph Neural Networks dabei Transformer in Leistung und Skalierbarkeit übertreffen.

Jan Hůla, David Mojžíšek, Jiří Janeček, David Herel, Mikoláš Janota

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie denkt eine KI über Geometrie?

Stell dir vor, du hast ein Puzzle, bei dem du nicht die Teile siehst, sondern nur Hinweise bekommst wie: „Punkt B liegt genau in der Mitte zwischen A und C" oder „Punkt D ist das Spiegelbild von E". Deine Aufgabe ist es, die genaue Position aller Punkte auf einem Raster (wie einem Schachbrett) zu erraten.

Künstliche Intelligenzen (KIs) können solche Rätsel lösen. Aber das eigentliche Geheimnis ist: Wie machen sie das im Inneren? Verstehen sie wirklich, was „Mitte" oder „Spiegelung" bedeutet, oder raten sie nur gut?

Die Autoren dieses Papers haben zwei verschiedene KI-Typen getestet, um herauszufinden, wie sie „denken":

  1. Transformer: Das ist der Typ, der auch in Chatbots (wie mir) steckt. Er liest Sätze wie ein Buch.
  2. GNN (Graph Neural Network): Das ist ein Spezialist, der Beziehungen zwischen Dingen direkt verknüpft, wie ein Netzwerk aus Knoten und Drähten.

Die Entdeckung: Die KI malt sich ein Bild im Kopf

Das Spannendste an der Studie ist, was sie im „Gehirn" der KI gefunden haben.

Stell dir vor, die KI hat einen riesigen, unsichtbaren Raum voller Zahlen (das nennt man „Embedding Space"). Wenn die KI das Puzzle löst, passiert etwas Magisches:

  • Die Zahlen, die die unbekannten Punkte repräsentieren, bewegen sich in diesem Raum.
  • Sie ordnen sich nicht zufällig an, sondern formen genau das Bild, das im Rätsel versteckt ist.
  • Die KI „malt" das Quadrat oder die Spiegelung buchstäblich in ihren eigenen Zahlenraum, bevor sie die Antwort ausgibt.

Es ist, als würde ein Maler, der die Vorlage nicht sieht, erst die Farben auf seiner Palette mischen und dabei zufällig das genaue Bild der Vorlage formen, bevor er auf die Leinwand streicht. Die KI entwickelt also eine innere Landkarte des Problems.

Der Vergleich: Der Leser vs. Der Baumeister

Die Forscher haben herausgefunden, dass die beiden KI-Typen ganz unterschiedlich arbeiten:

  • Der Transformer (Der Leser): Er versucht, das Rätsel wie einen Text zu lesen. Bei einfachen Aufgaben geht das gut. Aber sobald das Puzzle komplexer wird (mehr Punkte, mehr Regeln), gerät er ins Stolpern. Er ist wie jemand, der versucht, ein riesiges Bauwerk nur durch das Lesen einer Anleitung zu verstehen, ohne die Steine wirklich zu greifen. Er braucht extrem viel Rechenleistung und wird schnell ungenau.
  • Das GNN (Der Baumeister): Dieser Typ ist wie ein erfahrener Architekt, der die Beziehungen zwischen den Steinen direkt sieht. Er baut das Puzzle Schritt für Schritt auf. Er ist viel besser darin, komplexe geometrische Regeln zu verstehen und skaliert (wächst mit) viel besser, wenn die Aufgaben schwieriger werden.

Der iterative Prozess: Ausprobieren und Verfeinern

Ein weiterer wichtiger Punkt ist, wie die KI zur Lösung kommt. Sie wirft nicht einfach eine Antwort hin.
Stell dir vor, du versuchst, einen Stuhl auf einem wackeligen Boden gerade zu stellen.

  1. Du stellst ihn hin (er ist schief).
  2. Du drückst ein bisschen nach links.
  3. Du prüfst, ob er wackelt.
  4. Du korrigierst ihn noch ein bisschen.

Genau das macht die KI. Sie startet mit einer zufälligen Position für die Punkte und korrigiert diese Positionen schrittweise, bis alles passt. Je mehr Zeit (oder Rechenleistung) sie bekommt, desto genauer wird das Bild. Das nennt man „iterative Verfeinerung".

Was bedeutet das für uns?

Die Studie zeigt uns, dass KIs nicht nur blind Muster erkennen. Wenn man sie richtig trainiert, entwickeln sie ein strukturiertes Verständnis von Raum und Form. Sie bauen sich ein mentales Modell auf, das der Realität entspricht.

  • Die Lehre: Für komplexe räumliche Probleme (wie Robotik oder Architekturplanung) sind Graph-Netzwerke (GNNs) wahrscheinlich die besseren Werkzeuge als die großen Sprachmodelle, die wir heute oft nutzen.
  • Die Hoffnung: Wenn wir verstehen, wie diese inneren Bilder entstehen, können wir KIs besser verstehen, besser steuern und vielleicht sogar KI-Systeme bauen, die wirklich „verstehen", was sie tun, statt nur zu raten.

Zusammengefasst: Die Forscher haben gezeigt, dass KIs beim Lösen von Geometrie-Rätseln tatsächlich ein „mentales Bild" im Kopf formen. Und zwar ist ein spezieller KI-Typ (der GNN) dafür viel besser geeignet als der bekannte Chatbot-Typ, weil er die Beziehungen zwischen den Teilen direkt „begreift" und das Bild schrittweise verfeinert, bis es perfekt sitzt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →