Gauge Freedom and Metric Dependence in Neural Representation Spaces

Die Arbeit zeigt, dass neuronale Repräsentationen nur bis auf invertierbare lineare Transformationen definiert sind, was bedeutet, dass metrikabhängige Ähnlichkeitsmaße wie die Kosinusähnlichkeit ohne Invarianz gegenüber dieser Eichfreiheit irreführend sein können und Analysen stattdessen auf invariante Größen oder kanonische Koordinaten fokussieren sollten.

Jericho Cain

Veröffentlicht 2026-03-10
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Geheimnis der unsichtbaren Koordinaten: Warum die Form von KI-Daten trügerisch ist

Stell dir vor, du hast einen riesigen, hochmodernen Koch, der ein Neural-Netzwerk ist. Dieser Koch kann jede Frage beantworten, jedes Bild erkennen und jeden Text verstehen. Aber wie funktioniert er eigentlich im Inneren?

Der Koch verarbeitet Informationen in Schichten. In der Mitte des Kochprozesses wandelt er Zutaten (die Eingabedaten) in Zutaten-Mischungen um. Diese Mischungen sind die "Repräsentationen" – also die Art und Weise, wie die KI die Welt "sieht".

Die Wissenschaftler haben bisher angenommen, dass diese Mischungen eine feste, unveränderliche Form haben. Aber Jericho Cain hat etwas Entdeckendes herausgefunden: Die Form dieser Mischungen ist gar nicht festgelegt. Sie ist wie ein Scherz, den die Mathematik uns spielt.

1. Der Trick mit dem Maßstab (Die "Gauge-Freiheit")

Stell dir vor, du hast eine Landkarte einer Stadt.

  • Szenario A: Du zeichnest die Karte in Metern.
  • Szenario B: Du zeichnest dieselbe Karte, aber du streckst sie in Ost-West-Richtung um das Doppelte und stauchst sie in Nord-Süd-Richtung zusammen.

Die Stadt selbst (die Informationen, die der Koch verarbeitet) hat sich nicht verändert. Die Straßen liegen immer noch an derselben Stelle, und du kannst immer noch von Punkt A nach Punkt B kommen. Aber wenn du jetzt auf der neuen Karte den Winkel zwischen zwei Straßen misst oder sagst, wie "nah" zwei Gebäude beieinander liegen, kommen völlig andere Zahlen heraus!

Das ist genau das, was in neuronalen Netzen passiert:

  • Die KI kann ihre inneren Daten (die Koordinaten) beliebig strecken, stauchen oder drehen.
  • Solange der nächste Schritt im Netzwerk (der "Koch", der die Antwort gibt) sich anpasst, bleibt das Endergebnis (die Vorhersage) exakt gleich.
  • Aber die Geometrie – also wie nah sich Dinge im Inneren der KI scheinen – verändert sich dramatisch.

Cain nennt dies "Gauge-Freiheit". Es ist wie die Freiheit, ein Koordinatensystem zu wählen. Ob du Längen in Metern oder Fuß angibst, ändert nichts an der Realität, aber es ändert die Zahlen, die du auf dem Lineal abliest.

2. Der falsche Kompass: Die Kosinus-Ähnlichkeit

In der KI-Welt ist Kosinus-Ähnlichkeit der beliebteste Kompass. Er misst, wie ähnlich zwei Dinge sind, indem er den Winkel zwischen ihnen betrachtet.

  • Wenn der Winkel klein ist, sind die Dinge ähnlich.
  • Wenn der Winkel groß ist, sind sie unterschiedlich.

Das Problem? Der Winkel hängt davon ab, wie du die Landkarte verzerrt hast!

Stell dir vor, du hast zwei Freunde, die sich sehr ähnlich sind (sie stehen nah beieinander).

  • Wenn du die Landkarte normal zeichnest, siehst du, dass sie nah beieinander stehen.
  • Wenn du die Landkarte jetzt wie einen Gummiballon in die Länge ziehst, rutschen sie plötzlich weit auseinander. Der Winkel zwischen ihnen hat sich geändert, obwohl sie immer noch dieselben Freunde sind.

Cain zeigt in seinem Papier, dass viele Studien, die behaupten, "Diese beiden Wörter sind semantisch ähnlich", eigentlich nur messen, wie die KI zufällig ihre Landkarte gezeichnet hat. Wenn man die Landkarte anders zeichnet (eine andere "Gauge" wählt), könnten diese Wörter plötzlich wie Fremde wirken, obwohl die KI sie immer noch gleich versteht.

3. Das Experiment: Der unsichtbare Zaubertrick

Um das zu beweisen, hat Cain ein kleines Experiment gemacht:

  1. Er trainierte einen einfachen KI-Koch, um Zahlen zu erkennen (z. B. Ziffern von 0 bis 9).
  2. Dann nahm er die "Zutaten-Mischungen" in der Mitte des Kochs und streckte sie mathematisch wie einen Gummiballon (eine invertierbare lineare Transformation).
  3. Er passte den letzten Schritt des Kochs so an, dass er die Verzerrung wieder ausglich.

Das Ergebnis:

  • Die KI machte keinen einzigen Fehler mehr. Sie sagte immer noch "Das ist eine 7".
  • Aber wenn man sich ansah, wie "ähnlich" die verschiedenen Zahlen im Inneren der KI waren, sah die Welt völlig anders aus!
  • Die "Nachbarn" (ähnliche Zahlen) waren plötzlich nicht mehr die gleichen. Eine 3 könnte plötzlich näher an einer 8 sein als an einer 5, nur weil man die Landkarte verzerrt hatte.

4. Was bedeutet das für uns?

Das ist eine wichtige Warnung für alle, die KI-Forschung betreiben:

  • Wir können nicht einfach auf die Form vertrauen: Wenn wir sagen "Diese KI-Modelle sind ähnlich", müssen wir vorsichtig sein. Vielleicht sehen sie nur deshalb ähnlich aus, weil wir sie in denselben Koordinaten gemessen haben.
  • Der "Weißwasch"-Effekt (Whitening): Cain schlägt vor, eine Art "Standardmaßstab" zu verwenden. Stell dir vor, du nimmst deine verzerrte Landkarte und drückst sie so lange, bis sie wieder perfekt rund ist (die Verzerrung entfernt). Das nennt man "Whitening". Wenn man das tut, bekommt man eine faire, unverzerrte Sicht auf die Daten.
  • Die wahre Essenz: Die wahre Intelligenz der KI liegt nicht in den Winkeln oder Abständen auf dem Papier, sondern darin, wie sie die Informationen verarbeitet. Wir müssen Methoden finden, die unabhängig davon sind, wie wir die Landkarte zeichnen.

Fazit

Die Arbeit von Jericho Cain sagt uns: Vertraue nicht blind auf die Form der Daten.

Neuronale Netze sind wie Chameleons. Sie können ihre Farbe (die Koordinaten ihrer inneren Welt) ändern, ohne ihre Identität (die Vorhersage) zu verlieren. Wenn wir versuchen, diese Netze zu verstehen, müssen wir aufpassen, dass wir nicht die Farbe des Chamäleons analysieren, sondern das Wesen dahinter. Wir müssen lernen, die Verzerrungen zu ignorieren oder sie zu korrigieren, um die wahre Struktur der KI zu sehen.

Es ist ein Aufruf, die KI nicht nur nach dem zu bewerten, wie sie aussieht, sondern danach, was sie tut – und zwar unabhängig davon, in welchem "Maßsystem" wir sie gerade betrachten.