Probing the Latent World: Emergent Discrete Symbols and Physical Structure in Latent Representations

Die Studie stellt das AIM-Framework vor, einen passiven Quantisierungsansatz, der nachweist, dass die eingefrorenen latenten Repräsentationen von V-JEPA 2-Video-Weltmodellen durch diskrete Symbole strukturiert sind, die physikalische Merkmale wie Greifwinkel und Objektgeometrie widerspiegeln, ohne dabei den Encoder zu verändern.

Liu hung ming

Veröffentlicht 2026-03-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen genialen Koch (das KI-Modell V-JEPA 2), der in einer Küche arbeitet, die für uns unsichtbar ist. Dieser Koch kann Videos von Menschen sehen und vorhersagen, was als Nächstes passiert – zum Beispiel, ob eine Person einen Ball wirft oder einen Bogen spannt. Er hat die Gesetze der Physik (Schwerkraft, Bewegung, Objekte) so gut verinnerlicht, dass er diese Vorhersagen trifft, ohne dass wir sehen können, wie er das macht.

Das Problem: Wir können in seine Gedanken nicht hineinschauen. Er arbeitet nur mit unsichtbaren, fließenden Zahlen (dem „latenten Raum"). Wir wissen, dass er etwas versteht, aber wir können nicht sehen, was genau er versteht.

Hier kommt die neue Forschung von Liu Hung Ming ins Spiel. Er möchte herausfinden, ob dieser Koch wirklich die Welt versteht, indem er eine Art „Übersetzer" an die Küche anschließt.

Die Idee: Der „AI-Muttersprache"-Übersetzer (AIM)

Stellen Sie sich vor, Sie wollen herausfinden, was der Koch denkt, ohne ihn zu stören.

  • Der alte Weg (Generative Modelle): Man würde dem Koch sagen: „Zeig mir ein Bild von dem, was du denkst!" Aber dann könnte der Koch einfach ein schönes Bild malen, das gar nichts mit seinem eigentlichen Denken zu tun hat, sondern nur mit seiner Fähigkeit zu malen. Das wäre wie ein Lügner, der eine Geschichte erfindet.
  • Der neue Weg (Passives Abhören): Der Autor baut einen kleinen, passiven Sensor an die Küche. Dieser Sensor nimmt die unsichtbaren Zahlen des Kochs und wandelt sie in eine einfache Reihe von Symbolen um (wie Buchstaben oder Farben). Wichtig: Der Sensor lernt nichts Neues, er wandelt nur um. Der Koch (das Modell) bleibt komplett unverändert und „eingefroren".

Wenn der Sensor nun sagt: „Bei Aktion A kommt immer das Symbol 'Rot', bei Aktion B immer 'Blau'", dann wissen wir zu 100 %, dass der Unterschied im Denken des Kochs liegt und nicht im Sensor.

Das Experiment: Drei physikalische Tests

Um zu prüfen, ob der Sensor wirklich etwas versteht, hat der Autor drei verschiedene Szenarien getestet, bei denen er nur einen physikalischen Aspekt verändert hat:

  1. Der Griff (Greifwinkel):

    • Vergleich: Bogenschießen (Finger spannen den Bogen) vs. Bowling (Hand hält die Kugel).
    • Ergebnis: Der Sensor unterscheidet die beiden deutlich. Er merkt, dass die Handhaltung anders ist.
  2. Die Form des Objekts (Objektgeometrie):

    • Vergleich: Drachensteigen (ein langer, dünner Drache an einer Schnur) vs. Hochsprung (kein Objekt, nur der Körper).
    • Ergebnis: Auch hier erkennt der Sensor den Unterschied zwischen „langes Objekt" und „kein Objekt".
  3. Die Zeit (Bewegungsgeschwindigkeit):

    • Vergleich: Marschieren (regelmäßiger, taktvoller Schritt) vs. Bogenschießen (erst lange Wartezeit, dann ein schneller Schuss).
    • Ergebnis: Das war der stärkste Test! Der Sensor konnte hier den größten Unterschied erkennen. Das macht Sinn, denn das KI-Modell wurde trainiert, um Zeit und Bewegung vorherzusagen. Es ist also besonders gut darin, rhythmische Bewegungen von statischen Momenten zu unterscheiden.

Die überraschende Entdeckung: Ein kompakter Raum

Das Spannendste an den Ergebnissen ist, wie der Koch die Dinge speichert.
Man hätte erwartet, dass jede Aktion einen völlig eigenen, getrennten Ort im Gehirn des Kochs hat (wie verschiedene Schubladen). Aber das ist nicht so.

Stellen Sie sich das Gehirn des Kochs wie einen großen, gemeinsamen Raum vor.

  • Alle Aktionen (Bogenschießen, Bowling, Marschieren) finden in diesem einen Raum statt.
  • Sie sind nicht in getrennten Schubladen, sondern sie stehen einfach an verschiedenen Stellen im Raum.
  • Wenn jemand marschiert, steht er an Position A. Wenn jemand Bogenschießt, steht er an Position B. Aber beide sind im selben Raum.

Das ist keine Schwäche, sondern eine Stärke! Es bedeutet, dass die KI die gemeinsamen physikalischen Gesetze (Schwerkraft, wie sich Arme bewegen) verstanden hat und nur die kleinen Unterschiede (die Art des Griffs oder der Rhythmus) als feine Verschiebungen in diesem Raum speichert.

Warum ist das wichtig?

  1. Kein „Black Box"-Problem mehr: Wir haben jetzt einen Weg, um in das Gehirn einer KI zu schauen, ohne sie zu manipulieren. Wir können sehen, ob sie wirklich Physik versteht oder nur Bilder auswendig gelernt hat.
  2. Zukunft der Roboter: Wenn Roboter diese Art von „Verstehen" haben, können sie besser planen. Sie wissen nicht nur, wie ein Objekt aussieht, sondern wie es sich verhält.
  3. Sicherheit: Wenn wir wissen, wie die KI intern denkt (durch diese Symbole), können wir leichter erkennen, ob sie „verrückt" spielt oder gefährliche Pläne schmiedet, bevor sie etwas tun.

Fazit

Der Autor hat bewiesen, dass man eine hochkomplexe KI, die nur mit unsichtbaren Zahlen arbeitet, mit einem einfachen Übersetzer (dem AIM-Sensor) „abhören" kann. Dieser Übersetzer zeigt uns, dass die KI die Welt nicht als eine Liste von Bildern, sondern als ein physikalisches Verständnis von Bewegung und Zeit gespeichert hat. Es ist, als würde man endlich die Sprache verstehen, in der die KI mit sich selbst spricht.