Torus embeddings

Each language version is independently generated for its own context, not a direct translation.

Torus-Einbettungen: Warum wir Daten auf einem Donut speichern sollten

Stellen Sie sich vor, Sie versuchen, eine riesige Bibliothek mit Milliarden von Büchern zu organisieren. In der Welt der Künstlichen Intelligenz (KI) sind diese „Bücher" Datenpunkte – Bilder, Vogelgesänge oder Texte. Um sie zu finden, muss die KI sie in einen mathemischen Raum „einbetten" (also in eine Art Koordinatensystem übersetzen).

Bisher haben KI-Entwickler fast immer zwei Arten von Räumen benutzt:

Der unendliche Raum: Wie ein riesiges, flaches Feld, das nirgendwo aufhört.
Die Hypersphäre: Wie eine riesige Kugeloberfläche, auf der alle Daten liegen.

Der Autor dieses Papers, Dan Stowell, sagt jedoch: „Moment mal! Unsere Computer denken eigentlich ganz anders."

Das Problem: Der Computer ist ein Kreislauf

Die meisten Computer arbeiten im Inneren mit einfachen ganzen Zahlen (Integers). Wenn Sie auf einem Computer eine Zahl addieren, die zu groß wird (z. B. 255 + 1 bei einer 8-Bit-Zahl), passiert etwas Magisches: Die Zahl „springt" zurück auf 0. Das nennt man Überlauf (Overflow).

Die Analogie: Stellen Sie sich eine Uhr vor. Wenn es 23 Uhr ist und eine Stunde vergeht, ist es nicht 24 Uhr, sondern wieder 0 Uhr. Die Zeit läuft im Kreis.
Die Erkenntnis: Ein Vektor (eine Liste von Zahlen) in einem Computer, bei dem jede Zahl so einen „Kreislauf" macht, bildet mathematisch gesehen keine Kugel und kein flaches Feld. Es bildet einen Torus – also einen Donut.

Wenn wir Daten in einem Kugel-Raum (Hypersphäre) speichern, aber auf einem Computer mit „Uhr-Zahlen" (Integer) ablegen, passen die beiden nicht perfekt zusammen. Es ist, als würde man versuchen, eine runde Kugel in eine quadratische Kiste zu zwängen. Das kostet Rechenleistung und Speicherplatz.

Die Lösung: Den Donut nutzen

Stowell schlägt vor: „Warum versuchen wir nicht, die KI direkt in einem Donut-Raum (Torus) zu trainieren?"

Er zeigt zwei Wege, wie man das macht:

Der Clifford-Weg: Eine mathematische Umformung, die etwas kompliziert ist und beim Training manchmal instabil wird (wie ein Wackelstuhl).
Der Normalisierungs-Weg (L2p): Eine einfachere Methode, bei der man die Daten paarweise so skaliert, dass sie perfekt auf den Donut passen.

Das Ergebnis: Die zweite Methode funktioniert hervorragend. Sie ist fast genauso gut wie die alte Kugel-Methode, aber sie passt viel besser zu den einfachen, schnellen Computer-Chips, die wir überall haben (in Smartphones, Sensoren, alten Computern).

Warum ist das wichtig? (Die „TinyML"-Vision)

Stell dir vor, du willst eine KI auf einem winzigen Chip in einem Waldsensor installieren, der nur mit einer Batterie läuft.

Die alte Methode (Kugel): Du musst komplizierte Umrechnungen machen, um die Daten auf den Chip zu bekommen. Das kostet Energie und Zeit.
Die neue Methode (Donut): Da der Computer von Natur aus schon wie ein Donut funktioniert (wegen der Überlauf-Zahlen), musst du nichts umrechnen. Die Daten passen einfach so hinein.

Das ist wie der Unterschied zwischen einem komplizierten Puzzle, das du erst zerschneiden musst, und einem Puzzle, das schon die richtige Form hat.

Was haben die Tests gezeigt?

Der Autor hat die Methode an Bildern (CIFAR-Datenbank) und Vogelgesängen getestet:

Genauigkeit: Der Donut-Raum ist fast genauso gut wie die Kugel. Manchmal sogar besser, besonders wenn man sehr wenig Speicherplatz hat.
Komprimierung: Wenn man die Daten stark komprimiert (z. B. auf nur 1 Bit pro Zahl, also nur 0 oder 1), bleibt der Donut-Raum sehr stabil.
Stabilität: Die einfachere Methode (L2p) ist beim Training sehr stabil. Die komplexere Methode (Clifford) braucht etwas mehr Vorsicht.

Fazit für den Alltag

Dieses Papier ist ein Aufruf, die Grundlagen unserer KI-Systeme neu zu denken. Anstatt immer komplexere mathematische Räume zu erfinden, die auf unseren einfachen Computern schwer zu berechnen sind, sollten wir Räume nutzen, die der Computer von Natur aus liebt: Runde, geschlossene Kreise (Torus).

Das bedeutet in der Zukunft:

KI-Modelle, die auf billigen, alten oder winzigen Chips laufen.
Weniger Energieverbrauch (gut für die Umwelt).
Schnellere Suchen in riesigen Datenbanken.

Es ist, als würde man aufhören, Autos mit Dampfkesseln zu bauen, nur weil man früher Dampfkessel hatte, und stattdessen endlich Verbrennungsmotoren nutzt, die besser zu unserem Benzin passen. Der „Donut" ist das Benzin für die nächste Generation von KI auf kleinen Geräten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Deep-Learning-Embeddings werden typischerweise als Vektoren in einem unbeschränkten euklidischen Raum ( $\mathbb{R}^D$ ) oder einer Hypersphäre (durch $L_2$ -Normalisierung) dargestellt. Obwohl Hypersphären gute Eigenschaften für die Ähnlichkeitssuche bieten, bestehen zwei Hauptprobleme bei der praktischen Implementierung, insbesondere im Kontext von „TinyML" und ressourcenbeschränkter Hardware:

Repräsentationsineffizienz: Die meisten Computer nutzen Integer-Arithmetik mit Überlauf (Overflow), was mathematisch einer Modulo-Operation entspricht. Ein Vektor aus solchen Integern definiert topologisch einen (Hyper-)Torus, keine Hypersphäre.
Quantisierungsproblematik: Hypersphären lassen sich nicht direkt und verlustfrei auf ganzzahlige Gitter abbilden, da sie keine kartesischen Koordinaten besitzen. Dies erfordert komplexe Kodierungs-/Dekodierungsverfahren oder führt zu Ineffizienzen bei der Speicherung und Berechnung.
Hardware-Kompatibilität: Während GPUs/TPUs effizient sind, sind CPUs (insbesondere ältere oder eingebettete Architekturen) die am weitesten verbreitete Hardware. Diese arbeiten am effizientesten mit 8-Bit-Integern und Modulo-Arithmetik (Wrap-around). Eine Diskrepanz zwischen der Topologie der Embeddings (Hypersphäre) und der Hardware-Topologie (Torus) führt zu verschwendeter Repräsentationskapazität.

2. Methodik

Der Autor schlägt vor, die Topologie des Embedding-Raums von der Hypersphäre auf einen Hypertorus zu ändern, um eine natürliche Übereinstimmung mit der Integer-Arithmetik herzustellen.

Training von Torus-Repräsentationen:
Um Gradientenabstieg in einem toroidalen Raum zu ermöglichen, werden zwei Projektionsstrategien vorgestellt, die Daten auf einen Clifford-Hypertorus abbilden (einen Unterraum der Hypersphäre, der eine 1-zu-1-Abbildung auf einen flachen Torus erlaubt):

Clifford-Projektion (torusC):
- Transformation: $(x_1, \dots, x_D) \to \sqrt{\frac{1}{D}} (\sin x_1, \cos x_1, \dots, \sin x_D, \cos x_D)$ .
- Die extrinsische Dimension verdoppelt sich ( $2D$ ), die intrinsische Dimension bleibt $D$ .
- Nachteil: Instabil beim Training, da große Gradientenschritte den Raum mehrfach „umwickeln" können, was zu Oszillationen führt.
Paarweise $L_2$ -Normalisierung (torusN):
- Transformation: Anwendung einer $L_2$ -Normalisierung auf Paare von Dimensionen: $(x_1, x_2) \to \frac{(x_1, x_2)}{\|(x_1, x_2)\|_2}$ .
- Die extrinsische Dimension bleibt $D$ , die intrinsische Dimension halbiert sich auf $D/2$ .
- Vorteil: Bietet eine stabilere Trainingsdynamik, ähnlich der Standard- $L_2$ -Normalisierung für Hypersphären.

Trainingstechniken:

Verlustfunktion: Es wird überwachtes kontrastives Lernen (SupCon) verwendet, da toroidale Räume keine Hyperplane für Klassifikation zulassen.
Regularisierung: Um eine gleichmäßige Verteilung der Datenpunkte im Raum zu erzwingen (was die Kapazität maximiert), wird KoLeo-Regularisierung (basierend auf Kozachenko-Leonenko) eingesetzt.
Gradient Clipping: Notwendig, um Instabilitäten bei großen Schritten zu verhindern, insbesondere bei torusC.

Inferenz und Quantisierung:

Während des Trainings wird im Clifford-Raum gearbeitet (Cosinus-Distanz ist effizient).
Für die Inferenz (z. B. auf CPUs) können die Vektoren durch arctan2 in den flachen Torus (Integer-Werte) zurücktransformiert werden.
Die Distanzberechnung im flachen Torus nutzt die native Modulo-Arithmetik der CPU (Wrap-around), was extrem effizient ist (keine Verzweigungen, einfache Subtraktion).

3. Wichtige Beiträge

Topologischer Wechsel: Demonstration, dass Deep-Learning-Frameworks einfach angepasst werden können, um Embeddings mit intrinsisch toroidaler Topologie zu erzeugen.
Stabilitätsanalyse: Identifikation, dass die paarweise Normalisierung (torusN) stabiler und performanter ist als die Clifford-Projektion (torusC).
Quantisierungseigenschaften: Nachweis, dass torusN-Embeddings bei extrem niedrigen Bitraten (z. B. 8-bit oder sogar 1-bit) eine hohe Fidelity beibehalten.
KoLeo-Einfluss: Untersuchung zeigt, dass KoLeo-Regularisierung für torus-Embeddings besonders wichtig ist, um eine gleichmäßige Raumnutzung zu gewährleisten, obwohl sie bei niedrigen Dimensionen Instabilitäten verursachen kann.

4. Ergebnisse

Die Experimente umfassten Bildklassifizierung (CIFAR-10/100) und Few-Shot-Klassifizierung von Vogelgesang (BIRB-Datensatz).

Performance (Float): Torus-Embeddings (insbesondere torusN) erreichen eine Leistung, die mit Hypersphären-Embeddings vergleichbar ist. Sie übertreffen diese nicht signifikant, sind aber gleichwertig.
Stabilität: torusN ist deutlich robuster als torusC. torusC neigte bei niedrigen Dimensionen zum Divergieren.
Quantisierung (CIFAR-100):
- Bei 8-bit-Quantisierung zeigen beide Topologien (Hypersphäre und Torus) kaum Performanceverluste.
- Bei extrem niedrigen Bitraten (1-bit oder stark komprimiertes Product Quantization - PQ) schneiden torusN-Embeddings in bestimmten Szenarien (niedrige Dimensionen) besser ab als Hypersphären.
- Überraschenderweise performt Product Quantization (PQ) auch für Hypersphären sehr gut, was die Annahme widerlegt, dass nur toroidale Räume für Gitter-Quantisierung geeignet sind.
Few-Shot Learning (Audio): Im BIRB-Experiment (Vogelgesang) zeigten torusN-Embeddings bei niedrigen Dimensionen (16D, 32D) eine leicht bessere Generalisierungsfähigkeit als Hypersphären, während bei höheren Dimensionen (128D) die Hypersphäre leicht überlegen war.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Wahl der Topologie des Embedding-Raums nicht nur eine mathematische Nuance ist, sondern direkte Auswirkungen auf die Hardware-Effizienz hat.

TinyML & Edge Computing: Torus-Embeddings bieten einen „natürlichen" Pfad zu effizienten Implementierungen auf Standard-CPUs, da sie direkt auf Integer-Arithmetik mit Überlauf abbildbar sind. Dies reduziert den Bedarf an komplexen Floating-Point-Berechnungen oder speziellen Hardware-Beschleunigern.
Zukunftsfähigkeit: Angesichts des Trends zu großen Foundation-Modellen, die dann für spezifische Aufgaben verkleinert (distilled) werden müssen, sind Embeddings, die sich leicht in ressourcenschonende Integer-Formate überführen lassen, von großer strategischer Bedeutung.
Kompromiss: Obwohl torusN nicht in allen Fällen die Hypersphäre schlägt, bietet es eine hervorragende Alternative mit dem spezifischen Vorteil der einfachen, effizienten Implementierung auf ubiquitären Hardware-Plattformen, ohne signifikante Einbußen bei der Genauigkeit.

Zusammenfassend schlägt das Paper vor, den „flachen Torus" als Standardtopologie für Embeddings in Szenarien zu betrachten, in denen Speicherplatz und Rechenleistung auf Edge-Geräten kritisch sind.

Torus embeddings

Das Problem: Der Computer ist ein Kreislauf

Die Lösung: Den Donut nutzen

Warum ist das wichtig? (Die „TinyML"-Vision)

Was haben die Tests gezeigt?

Fazit für den Alltag

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models