Versor: A Geometric Sequence Architecture

Each language version is independently generated for its own context, not a direct translation.

🌟 Versor: Der neue Architekt für künstliche Intelligenz

Stell dir vor, du möchtest einem Computer beibringen, wie die Welt funktioniert. Bisher haben wir ihm das mit einer sehr starren Methode beigebracht: Wir haben ihm gesagt, dass alles nur eine Liste von Zahlen ist (wie eine Tabelle in Excel). Das nennt man "Vektorraum".

Das Problem dabei ist: Die echte Welt ist keine Excel-Tabelle. Die Welt besteht aus Bewegungen, Rotationen, Entfernungen und Perspektiven. Wenn du einen Ball wirfst, dreht er sich, fliegt durch die Luft und wird langsamer. Ein herkömmlicher KI-Modell (wie ein Transformer) muss das alles erst aus Millionen von Beispielen lernen, als würde ein Kind versuchen, das Fliegen zu verstehen, indem es nur Fotos von fliegenden Vögeln betrachtet, ohne die Gesetze der Physik zu kennen. Das ist ineffizient und oft ungenau, wenn sich die Bedingungen ändern.

Versor ist eine neue Art von KI-Architektur, die diesen Fehler behebt. Sie sagt: "Warum sollen wir die Physik erst lernen, wenn wir sie einfach in die Grundbausteine des Modells einbauen können?"

Hier ist die Idee, vereinfacht erklärt:

1. Der "Flache Raum" vs. Der "Krumme Raum" (Das Problem)

Stell dir vor, du zeichnest eine Landkarte.

Der alte Weg (Transformer): Du zeichnest alles auf ein flaches Blatt Papier. Wenn du eine Kugel (die Erde) auf dieses Papier projizierst, verzerrt sich alles. Um zu verstehen, wie weit zwei Punkte wirklich voneinander entfernt sind, muss der Computer mühsam rechnen und sich merken, wo die Verzerrung ist.
Der Versor-Weg: Versor benutzt eine Art "magische Landkarte" (konforme geometrische Algebra), auf der Entfernungen und Winkel immer korrekt sind, egal wie du die Karte drehst oder zoomst. Es ist, als würdest du nicht auf Papier malen, sondern direkt auf einer Kugel.

2. Die "Versor"-Maschine: Wie sie funktioniert

Versor nutzt eine spezielle mathemische Sprache namens Clifford-Algebra (genauer: $Cl_{4,1}$ ). Das klingt kompliziert, aber stell es dir so vor:

Normale KI: Sie denkt in Punkten. "Der Ball ist hier (x, y, z)."
Versor: Sie denkt in Bewegungen. Sie denkt nicht nur in Punkten, sondern in Rotoren. Ein Rotor ist wie ein unsichtbarer Arm, der einen Punkt greift und ihn dreht oder verschiebt.

Die Analogie des Tanzes:
Stell dir vor, du hast einen Tanzpartner.

Ein herkömmliches Modell versucht, jede einzelne Pose des Partners zu memorieren. Wenn der Partner einen Schritt zur Seite macht, muss das Modell neu lernen, wie die neue Pose aussieht.
Versor versteht die Schritte. Es weiß: "Wenn ich diesen Rotor (diesen Schritt) anwende, bewegt sich der Partner genau so." Es muss nicht jede Pose auswendig lernen, es kennt die Regeln der Bewegung.

3. Die zwei Superkräfte von Versor

A. Die "Verstehende Aufmerksamkeit" (Geometric Product Attention)
Wenn eine normale KI (Transformer) auf ein Bild schaut, fragt sie: "Wie ähnlich ist Pixel A Pixel B?" (Nur Distanz).
Versor fragt: "Wie ähnlich sind sie, und in welche Richtung zeigen sie zueinander?"

Beispiel: Stell dir vor, du hast zwei Autos. Ein normales Modell sieht nur, wie nah sie beieinander sind. Versor sieht auch, ob sie aufeinander zufahren oder aneinander vorbeifahren. Es zerlegt die Beziehung in zwei Teile:
1. Nähe: Wie nah sind sie? (Skalar)
2. Drehmoment/Orientierung: Wie drehen sie sich zueinander? (Bivektor)
  Das macht die KI viel schlauer bei physikalischen Aufgaben, wie z.B. dem Vorhersagen von Planetenbahnen.

B. Der "Unendliche Speicher" (Recursive Rotor Accumulator)
Normale KIs haben oft ein Problem mit langen Geschichten. Je länger die Geschichte, desto mehr "vergisst" sie oder wird verwirrt (wie ein Mensch, der versucht, sich an 10.000 Wörter zu erinnern).
Versor nutzt einen Trick: Es speichert die Geschichte nicht als Liste von Wörtern, sondern als eine einzige, fortlaufende Drehung.

Analogie: Stell dir vor, du läufst durch einen Wald. Ein normaler KI-Speicher macht bei jedem Schritt ein Foto und stapelt sie. Versor merkt sich nur: "Ich habe mich insgesamt 45 Grad nach links gedreht." Egal, wie lange du läufst, dieser eine Gedanke bleibt stabil. Das spart enorm viel Speicherplatz und Rechenleistung.

4. Warum ist das so wichtig? (Die Ergebnisse)

Das Papier zeigt, dass Versor in vielen Bereichen besser ist als die aktuellen Spitzenmodelle:

Sparsamkeit: Versor erreicht bessere Ergebnisse mit 200-mal weniger Parametern (Gedächtnis) als ein normaler Transformer. Es ist wie ein Genie, das mit einem Taschenrechner rechnet, während der Transformer einen Supercomputer braucht.
Generalisierung: Wenn man Versor an einem kleinen System trainiert (z.B. 5 Planeten), versteht es sofort, wie ein System mit 100 Planeten funktioniert. Ein normaler Transformer scheitert daran komplett, weil es nur die Zahlen auswendig gelernt hat, nicht das Prinzip.
Robustheit: Wenn man die Masse der Planeten plötzlich verdoppelt (etwas, das es im Training nicht gab), passt sich Versor sofort an. Normale KIs stürzen hier oft katastrophal ab.
Geschwindigkeit: Durch spezielle Hardware-Optimierungen (Bit-Masken) ist Versor auf modernen Chips sogar schneller als die großen Modelle, obwohl es komplexere Mathematik macht.

5. Wo wird es eingesetzt?

Versor ist nicht nur für Physik gedacht. Es funktioniert überall, wo Struktur und Beziehung wichtig sind:

Robotik: Damit Roboterarme sich nicht "verdrillen" und immer genau wissen, wo sie sind.
Medizin: Um die Faltung von Proteinen zu verstehen (wie ein 3D-Puzzle).
Alltag: Sogar bei der Erkennung von Bildern oder Texten, wo es hilft, Zusammenhänge besser zu verstehen, ohne riesige Datenmengen zu brauchen.

Fazit

Versor ist wie der Wechsel von einem Computer, der nur Zahlen addiert, zu einem Computer, der die Gesetze der Geometrie versteht. Es ist effizienter, stabiler und intelligenter, weil es die Welt so behandelt, wie sie wirklich ist: nicht als flache Liste von Zahlen, sondern als ein dynamisches, sich bewegendes Ganzes.

Es ist ein Schritt hin zu KI, die nicht nur "lernt", sondern "begreift".

Each language version is independently generated for its own context, not a direct translation.

Titel: Versor: Eine geometrische Sequenzarchitektur

Autoren: Trương Minh Huy und Edward Hirst
Veröffentlichungsdatum: Februar 2026 (simuliert/fiktiv im Kontext des Papers)

1. Das Problem: Der „Euclidean Bottleneck"

Die aktuellen State-of-the-Art-Modelle, insbesondere Transformer, basieren auf der Paradigmen der „Sequenz von Vektoren" in einem flachen euklidischen Raum ( $\mathbb{R}^d$ ). Die Beziehungen zwischen Merkmalen werden durch das Skalarprodukt ( $q^T k$ ) modelliert.

Geometrische Naivität: Diese Architektur ignoriert fundamentale Symmetrien der physikalischen Welt (Rotation, Translation, Skalierung). Um diese Invarianzen zu lernen, müssen Transformer enorme Datenmengen durch Data-Augmentation verarbeiten, anstatt die Symmetrien algebraisch zu erzwingen.
Skalierungsprobleme: Transformer leiden unter quadratischer Komplexität ( $O(L^2)$ ) bei langen Sequenzen und zeigen oft katastrophales Versagen bei Out-of-Distribution (OOD) Szenarien, insbesondere wenn sich die physikalischen Eigenschaften (z. B. Masse, Systemgröße) ändern.
Mangelnde Interpretierbarkeit: Die Aufmerksamkeitsmechanismen sind oft Blackboxen, die keine physikalisch sinnvollen Zerlegungen (z. B. in Kraft vs. Drehmoment) zulassen.

2. Methodik: Conformal Geometric Algebra (CGA)

Versor ersetzt lineare Algebra durch Konforme Geometrische Algebra (CGA), spezifisch die Algebra $Cl_{4,1}$ .

Einbettung: Datenpunkte werden nicht als Vektoren, sondern als Multivektoren in einer 5-dimensionalen konformen Raumzeit eingebettet. Ein 3D-Punkt $x$ wird zu einem Nullvektor $X$ in 5D gehoben:
$X = x + \frac{1}{2}x^2 e_\infty + e_o$
Dies linearisiert Abstandsberechnungen ( $X_i \cdot X_j = -\frac{1}{2}\|x_i - x_j\|^2$ ).
Transformationen: Anstelle von Matrixmultiplikationen werden Rotor (Elemente der Spin-Gruppe $Spin(4,1)$) verwendet, um Zustände durch das „Sandwich-Produkt" zu transformieren: $\Psi' = R \Psi \tilde{R}$ . Dies garantiert, dass alle Transformationen Isometrien sind (keine unphysikalischen Scherungen).

Kernkomponenten der Architektur:

Geometric Product Attention (GPA):
- Ersetzt den Standard-Attention-Mechanismus. Query und Key werden als Multivektoren konstruiert.
- Das geometrische Produkt $Q \tilde{K}$ $Q \tilde{K}$ wird in graduierte Komponenten zerlegt:
  - Skalaranteil: Repräsentiert die proximale Anziehung (Abstand).
  - Bivektoranteil: Repräsentiert die orientatorische Kopplung (Drehmoment/Torque).
- Dies ermöglicht eine interpretierbare Aufmerksamkeit, die sowohl auf Distanz als auch auf relative Orientierung reagiert.
Recursive Rotor Accumulator (RRA):
- Ein rekursiver Mechanismus, der den Zustand als Rotation auf der Spin-Mannigfaltigkeit speichert.
- Statt eines quadratischen Attention-Matrix wird der Zustand $\Psi_t$ durch einen lokalen Rotor $\Delta R_t$ aktualisiert: $\Psi_{t+1} = \text{Normalize}(\Delta R_t \Psi_t)$ .
- Komplexität: Ermöglicht lineare zeitliche Komplexität $O(L)$ und $O(1)$ Speichernutzung, ideal für lange dynamische Trajektorien.
- Stabilität: Durch die Projektion auf die Mannigfaltigkeit (Manifold Normalization) wird numerisches Driften verhindert und die Lyapunov-Stabilität gewährleistet.

3. Hardware-Optimierung

Da geometrische Produkte rechenintensiv sind, wurden zwei Beschleunigungstechniken entwickelt:

Bit-Maskierte Kerne: Nutzung der Isomorphie zwischen der Clifford-Basis und Bit-Operationen (XOR für Indizes, Paritätsberechnung für Vorzeichen). Dies umgeht teure Speichersuchtabellen (Cayley-Tables) und erzielt einen 78-fachen Geschwindigkeitsvorteil gegenüber naiven PyTorch-Implementierungen.
Matrix-Isomorphie: Für $Cl_{4,1}$ existiert eine Isomorphie zu $4 \times 4$ komplexen Matrizen. Dies erlaubt die Nutzung hochoptimierter BLAS/GEMM-Routinen, was die Latenz weiter um 65% reduziert.
Ergebnis: Eine Per-Schritt-Latenz von 1,05 ms, was schneller ist als optimierte Transformer-Baselines (1,10 ms).

4. Wichtige Ergebnisse

Parameter-Effizienz: Versor erreicht vergleichbare oder bessere Ergebnisse als Transformer mit 200-mal weniger Parametern (z. B. 6.662 vs. 1,32 Mio. Parameter).
Zero-Shot Skalengeneralisierung:
- Bei topologischen Aufgaben („Broken Snake") erreicht Versor einen MCC von 0,993 im Vergleich zu 0,070 für Vision Transformer (ViT).
- Versor generalisiert erfolgreich auf nicht gesehene Systemgrößen (z. B. Training auf $N=5$ , Test auf $N=7$ ), während Transformer aufgrund fester Eingabedimensionen scheitern.
Robustheit gegenüber Verteilungsverschiebungen:
- Bei einer 10-fachen Erhöhung der Masse (OOD-Test) verbessert sich der Fehler von Versor um -63,9%, während Transformer katastrophal versagen (+1933% Fehleranstieg).
- Grund: Versor kodiert Impulserhaltung und physikalische Gesetze algebraisch, statt sie nur aus Daten zu lernen.
Chaotische N-Körper-Dynamik:
- Versor zeigt eine deutlich geringere Energie-Drift (133% vs. 381% bei Transformer) und behält die Stabilität über 10.000 Zeitschritte bei, wo Transformer aufgrund von Speicherüberlauf (OOM) oder Instabilität versagen.
Interpretierbarkeit: Die GPA-Mechanismen zerlegen sich natürlich in skalare (Distanz) und bivectoriale (Orientierung) Komponenten, was physikalische Einblicke in die gelernten Interaktionsgesetze ermöglicht.

5. Bedeutung und Ausblick

Paradigmenwechsel: Versor demonstriert, dass das direkte Einbetten geometrischer Prioritäten (Symmetrien) in die Netzarchitektur den Bedarf an massiver Datenaugmentation und Rechenleistung drastisch reduziert.
Wissenschaftliches ML: Die Architektur ist besonders geeignet für physikalische Simulationen, Robotik (SLAM, Odometrie) und Molekulardynamik, wo Erhaltungssätze und Symmetrien kritisch sind.
Hardware-Zukunft: Die Arbeit schlägt spezialisierte „Geometric Algebra Processing Units" (GAPU) vor, die die inhärente Struktur der Clifford-Algebra nutzen, um den „Memory Wall"-Effekt zu überwinden.
Skalierbarkeit: Theoretische Beweise zeigen, dass Versor auch bei Milliarden von Parametern stabil bleibt (gradientenunabhängige Normen), was den Weg für fundamentale geometrische Modelle ebnet.

Fazit: Versor ist nicht nur eine effizientere Alternative zu Transformern für physikalische Aufgaben, sondern bietet ein neues Fundament für interpretierbare, symmetrieerhaltende KI, die die Lücke zwischen mathematischer Physik und maschinellem Lernen schließt.