Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen genialen Koch (das KI-Modell V-JEPA 2), der in einer Küche arbeitet, die für uns unsichtbar ist. Dieser Koch kann Videos von Menschen sehen und vorhersagen, was als Nächstes passiert – zum Beispiel, ob eine Person einen Ball wirft oder einen Bogen spannt. Er hat die Gesetze der Physik (Schwerkraft, Bewegung, Objekte) so gut verinnerlicht, dass er diese Vorhersagen trifft, ohne dass wir sehen können, wie er das macht.

Das Problem: Wir können in seine Gedanken nicht hineinschauen. Er arbeitet nur mit unsichtbaren, fließenden Zahlen (dem „latenten Raum"). Wir wissen, dass er etwas versteht, aber wir können nicht sehen, was genau er versteht.

Hier kommt die neue Forschung von Liu Hung Ming ins Spiel. Er möchte herausfinden, ob dieser Koch wirklich die Welt versteht, indem er eine Art „Übersetzer" an die Küche anschließt.

Die Idee: Der „AI-Muttersprache"-Übersetzer (AIM)

Stellen Sie sich vor, Sie wollen herausfinden, was der Koch denkt, ohne ihn zu stören.

Der alte Weg (Generative Modelle): Man würde dem Koch sagen: „Zeig mir ein Bild von dem, was du denkst!" Aber dann könnte der Koch einfach ein schönes Bild malen, das gar nichts mit seinem eigentlichen Denken zu tun hat, sondern nur mit seiner Fähigkeit zu malen. Das wäre wie ein Lügner, der eine Geschichte erfindet.
Der neue Weg (Passives Abhören): Der Autor baut einen kleinen, passiven Sensor an die Küche. Dieser Sensor nimmt die unsichtbaren Zahlen des Kochs und wandelt sie in eine einfache Reihe von Symbolen um (wie Buchstaben oder Farben). Wichtig: Der Sensor lernt nichts Neues, er wandelt nur um. Der Koch (das Modell) bleibt komplett unverändert und „eingefroren".

Wenn der Sensor nun sagt: „Bei Aktion A kommt immer das Symbol 'Rot', bei Aktion B immer 'Blau'", dann wissen wir zu 100 %, dass der Unterschied im Denken des Kochs liegt und nicht im Sensor.

Das Experiment: Drei physikalische Tests

Um zu prüfen, ob der Sensor wirklich etwas versteht, hat der Autor drei verschiedene Szenarien getestet, bei denen er nur einen physikalischen Aspekt verändert hat:

Der Griff (Greifwinkel):
- Vergleich: Bogenschießen (Finger spannen den Bogen) vs. Bowling (Hand hält die Kugel).
- Ergebnis: Der Sensor unterscheidet die beiden deutlich. Er merkt, dass die Handhaltung anders ist.
Die Form des Objekts (Objektgeometrie):
- Vergleich: Drachensteigen (ein langer, dünner Drache an einer Schnur) vs. Hochsprung (kein Objekt, nur der Körper).
- Ergebnis: Auch hier erkennt der Sensor den Unterschied zwischen „langes Objekt" und „kein Objekt".
Die Zeit (Bewegungsgeschwindigkeit):
- Vergleich: Marschieren (regelmäßiger, taktvoller Schritt) vs. Bogenschießen (erst lange Wartezeit, dann ein schneller Schuss).
- Ergebnis: Das war der stärkste Test! Der Sensor konnte hier den größten Unterschied erkennen. Das macht Sinn, denn das KI-Modell wurde trainiert, um Zeit und Bewegung vorherzusagen. Es ist also besonders gut darin, rhythmische Bewegungen von statischen Momenten zu unterscheiden.

Die überraschende Entdeckung: Ein kompakter Raum

Das Spannendste an den Ergebnissen ist, wie der Koch die Dinge speichert.
Man hätte erwartet, dass jede Aktion einen völlig eigenen, getrennten Ort im Gehirn des Kochs hat (wie verschiedene Schubladen). Aber das ist nicht so.

Stellen Sie sich das Gehirn des Kochs wie einen großen, gemeinsamen Raum vor.

Alle Aktionen (Bogenschießen, Bowling, Marschieren) finden in diesem einen Raum statt.
Sie sind nicht in getrennten Schubladen, sondern sie stehen einfach an verschiedenen Stellen im Raum.
Wenn jemand marschiert, steht er an Position A. Wenn jemand Bogenschießt, steht er an Position B. Aber beide sind im selben Raum.

Das ist keine Schwäche, sondern eine Stärke! Es bedeutet, dass die KI die gemeinsamen physikalischen Gesetze (Schwerkraft, wie sich Arme bewegen) verstanden hat und nur die kleinen Unterschiede (die Art des Griffs oder der Rhythmus) als feine Verschiebungen in diesem Raum speichert.

Warum ist das wichtig?

Kein „Black Box"-Problem mehr: Wir haben jetzt einen Weg, um in das Gehirn einer KI zu schauen, ohne sie zu manipulieren. Wir können sehen, ob sie wirklich Physik versteht oder nur Bilder auswendig gelernt hat.
Zukunft der Roboter: Wenn Roboter diese Art von „Verstehen" haben, können sie besser planen. Sie wissen nicht nur, wie ein Objekt aussieht, sondern wie es sich verhält.
Sicherheit: Wenn wir wissen, wie die KI intern denkt (durch diese Symbole), können wir leichter erkennen, ob sie „verrückt" spielt oder gefährliche Pläne schmiedet, bevor sie etwas tun.

Fazit

Der Autor hat bewiesen, dass man eine hochkomplexe KI, die nur mit unsichtbaren Zahlen arbeitet, mit einem einfachen Übersetzer (dem AIM-Sensor) „abhören" kann. Dieser Übersetzer zeigt uns, dass die KI die Welt nicht als eine Liste von Bildern, sondern als ein physikalisches Verständnis von Bewegung und Zeit gespeichert hat. Es ist, als würde man endlich die Sprache verstehen, in der die KI mit sich selbst spricht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das Interpretierbarkeits-Paradoxon bei JEPA-Modellen

Das Papier adressiert ein fundamentales Problem bei modernen selbstüberwachten Videomodellen, die auf der Joint Embedding Predictive Architecture (JEPA) basieren (insbesondere V-JEPA 2).

Der Vorteil: Diese Modelle lernen reiche räumlich-zeitliche Darstellungen, indem sie maskierte Bereiche im Latent Space vorhersagen, anstatt Pixel zu rekonstruieren. Dies führt zu starken Encodern, die physikalische Regularitäten (Kinematik, Geometrie, zeitliche Kontinuität) internalisieren, ohne durch oberflächliche visuelle Details abgelenkt zu werden.
Das Problem: Im Gegensatz zu generativen Modellen, die Pixel rekonstruieren und somit einen visuellen Verifikationspfad bieten, fehlt JEPA-Modellen dieser Pfad. Die Encoder haben strukturiertes Wissen gelernt, aber diese Struktur ist in einer nicht-inspektierbaren, kontinuierlichen Form gespeichert. Dies wird als Repräsentations-Opazität bezeichnet.
Limitationen bestehender Methoden:
- Diskriminative Probes (z. B. lineare Klassifikatoren): Arbeiten im kontinuierlichen Raum und liefern nur Ja/Nein-Antworten zur Dekodierbarkeit, keine strukturierte Schnittstelle.
- Generative Probes (z. B. angehängte Sprachmodelle): Führen zu einem Zuordnungsproblem (Attribution Problem). Wenn das Gesamtsystem gut funktioniert, ist unklar, ob dies auf die Repräsentationen des Encoders oder auf die gelernten Parameter des angehängten Generators zurückzuführen ist.

2. Methodik: Passive Diskrete Probing mit AIM

Die Autoren schlagen einen neuen Ansatz vor: Passives Diskretes Probing mittels des AI Mother Tongue (AIM)-Frameworks.

Konzept: Anstatt einen lernenden Generator anzuhängen, wird AIM als passiver Quantisierer verwendet. Er wandelt die kontinuierlichen latenten Vektoren des Encoders in diskrete Symbolsequenzen um, ohne das Encoder-Modell zu verändern.
Architektur (Drei-Schichten-Framework):
1. Latenter Modell-Layer: Ein frozen (eingefrorener) V-JEPA 2 Encoder (ViT-L). Alle Gewichte sind fixiert ( $\nabla \phi L = 0$ ).
2. Diskreter Semantik-Layer (AIM): Ein leichter Vektor-Quantisierer (VQ-VAE Bottleneck). Er nutzt einen Codebook mit $K=8$ $K = 8$ Einträgen.
  - Wichtig: Der Quantisierer hat kein vordefiniertes Vokabular, keine semantischen Labels und keine aufgabenspezifische Überwachung. Er lernt rein aus der Geometrie des latenten Raums.
  - Induktive Verzerrung: Nur die Vektor-Quantisierung selbst (Cluster-Geometrie, Codebook-Größe, EMA-Updates).
3. Sprachschnittstelle: In dieser Studie (Stage 1) noch nicht implementiert; der Fokus liegt auf der diskreten Symbolisierung.
Experimentelles Design:
- Datensatz: Kinetics-mini (5 Aktionskategorien: Bogenschießen, Bowling, Drachenfliegen, Hochsprung, Marschieren).
- Kategorie-Kontrast-Experimente: Paare von Aktionskategorien werden ausgewählt, die sich stark in einer physikalischen Dimension unterscheiden, während andere Faktoren minimiert werden:
  1. Greifwinkel: Bogenschießen vs. Bowling.
  2. Objektgeometrie: Drachenfliegen vs. Hochsprung.
  3. Bewegungsgeschwindigkeit/Zeitstruktur: Marschieren (periodisch) vs. Bogenschießen (aperiodisch).
- Vorbereitung: Da der Encoder eingefroren ist, werden die latenten Vektoren ($1568 \times 1024 $Token pro Video) vorab berechnet. Ein linearer Projektionslayer (1024$ \to$ 256 Dim) mit LayerNorm und L2-Normalisierung wird angewendet, um Codebook-Kollaps zu verhindern.
- Bewertungsmetriken: Chi-Quadrat-Test ( $\chi^2$ ), gegenseitige Information (MI), Jensen-Shannon-Divergenz (JSD) und Codebook-Nutzung.

3. Wichtige Beiträge

Passives Diskretes Probing: Formalisierung des Unterschieds zwischen passivem Probing (eingefrorener Encoder, vokal-freier diskreter Probe) und aktivem Probing. Dies löst das Zuordnungsproblem, da jede emergente Struktur ausschließlich dem Encoder zugeschrieben werden kann.
Architektonische Kompatibilität: Demonstration, dass AIM nahtlos an einen eingefrorenen V-JEPA 2 Encoder angehängt werden kann, ohne Änderungen am Quellcode des Encoders.
Statistisch signifikante symbolische Struktur: Nachweis, dass der eingefrorene Latent Space physikalisch strukturierte Informationen enthält, die durch diskrete Symbolisierung rekonstruierbar sind.
Kompakte Latent-Space-Charakterisierung: Entdeckung, dass verschiedene Aktionskategorien einen gemeinsamen repräsentativen Kern teilen und semantische Unterschiede als graduelle Verteilungsvariationen (statt als scharfe kategoriale Grenzen) kodiert werden.

4. Ergebnisse (Stage 1)

Die Experimente bestätigten die Hypothesen in allen drei physikalischen Dimensionen:

Statistische Signifikanz: Alle drei Kontrastexperimente zeigten signifikante Unterschiede in der Symbolverteilung.
- $\chi^2$ p-Werte: $< 10^{-4}$ (bis $< 10^{-10}$ für Bewegungsgeschwindigkeit).
- Gegenseitige Information (MI): $0.036 - 0.117$ Bits (normiert 1,2–3,9 % des theoretischen Maximums von 3 Bits).
- JSD: Bis zu $0.342$ (für Bewegungsgeschwindigkeit).
Codebook-Gesundheit: Die Nutzung war gesund ($62,5% $aktive Einträge von$ K=8$), was einen Kollaps ausschließt.
Dominantes Symbol-Kollision: Ein zentrales Phänomen war, dass fast alle Kategorien das dominante Symbol #5 verwendeten. Die Unterscheidung erfolgte nicht durch einen Wechsel des dominanten Symbols, sondern durch sekundäre Verteilungsverschiebungen (z. B. ein "Auslaufen" auf Symbol #4 oder #3 bei bestimmten Aktionen).
- Interpretation: Dies ist kein Defekt, sondern ein Hinweis auf die Kompaktheit des V-JEPA 2 Raums. Das Modell hat gemeinsame physikalische Strukturen (Schwerkraft, menschliche Kinematik) internalisiert, die über Kategorien hinweg geteilt werden.
Zeitstruktur-Sensitivität: Der Kontrast bei der Bewegungsgeschwindigkeit (Marschieren vs. Bogenschießen) lieferte das stärkste Signal ( $JSD = 0.343$ ), was mit dem Trainingsziel von V-JEPA 2 (Vorhersage zeitlicher Kontinuität) übereinstimmt.
Stabilität (H1): Die Pipeline zeigte eine 100%ige Deterministik ( $\bar{\rho} = 1.000$ ), was sicherstellt, dass die beobachteten Unterschiede nicht auf Rauschen zurückzuführen sind.

5. Bedeutung und Ausblick

Methodologischer Durchbruch: Das Papier etabliert eine Methode, um die „Black Box" von JEPA-Modellen zu öffnen, ohne deren gelernte Repräsentationen zu verzerren. Es beweist, dass strukturierte symbolische Mannigfaltigkeiten in eingefrorenen JEPA-Latent-Räumen existieren.
Weltmodell-Hypothese: Die Ergebnisse unterstützen die Hypothese, dass V-JEPA 2 als Weltmodell fungiert, das geteilte physikalische Strukturen lernt, anstatt nur oberflächliche Klassifikationsgrenzen zu ziehen.
Roadmap (4-Stufen-Plan):
- Stage 1 (dieses Papier): Diagnose der Kompatibilität und Nachweis der Struktur im eingefrorenen Raum.
- Stage 2: Skalierung des Codebooks ( $K$ erhöhen) und Einführung residueller Vektor-Quantisierung zur Auflösung feinerer Strukturen.
- Stage 3: Gemeinsames Training (Encoder wird aufgetaut), um die Repräsentationen an das symbolische Vokabular anzupassen.
- Stage 4: Entwicklung eines symbolischen Weltmodells mit kausaler Intervention und Sprachschnittstelle.

Fazit: Die Studie zeigt, dass diskrete, überwachungsarme Probing-Methoden (AIM) effektiv genutzt werden können, um die physikalische Struktur in den latenten Räumen moderner Videomodelle zu entschlüsseln. Dies legt den Grundstein für interpretierbare, symbolische Weltmodelle, die für Robotik, Sicherheitsüberwachung und kausales Verständnis von Bedeutung sind.

Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Die Idee: Der „AI-Muttersprache"-Übersetzer (AIM)

Das Experiment: Drei physikalische Tests

Die überraschende Entdeckung: Ein kompakter Raum

Warum ist das wichtig?

Fazit

1. Problemstellung: Das Interpretierbarkeits-Paradoxon bei JEPA-Modellen

2. Methodik: Passive Diskrete Probing mit AIM

3. Wichtige Beiträge

4. Ergebnisse (Stage 1)

5. Bedeutung und Ausblick

Mehr davon

JointFM-0.1: A Foundation Model for Multi-Target Joint Distributional Prediction

MARLIN: Multi-Agent Reinforcement Learning for Incremental DAG Discovery

Collaborative Adaptive Curriculum for Progressive Knowledge Distillation

Transformer-Based Predictive Maintenance for Risk-Aware Instrument Calibration

Rolling-Origin Validation Reverses Model Rankings in Multi-Step PM10 Forecasting: XGBoost, SARIMA, and Persistence