Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Die Arbeit stellt ein menschenzentriertes Video-Weltmodell vor, das durch präzise Steuerung von Kopf- und Handpositionen interaktive, egozentrische virtuelle Umgebungen generiert und damit im Vergleich zu bestehenden Ansätzen eine deutlich höhere wahrgenommene Kontrolle sowie eine verbesserte Aufgabenleistung ermöglicht.

Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du trägst eine VR-Brille, aber statt in eine starre, vorprogrammierte Welt zu schauen, betrittst du eine magische, lebendige Leinwand, die sich in Echtzeit genau nach deinen Bewegungen richtet. Genau das ist das Ziel dieses Projekts: eine Welt, die nicht aus teuren 3D-Modellen besteht, sondern aus einem „künstlichen Künstler", der Videos direkt für dich malt.

Hier ist die Geschichte dahinter, einfach erklärt:

1. Das Problem: Der steife Roboter

Bisher waren virtuelle Welten wie ein Roboter, der nur einfache Befehle versteht. Wenn du sagst „Geh vorwärts" oder drückst einen Knopf, bewegt er sich. Aber wenn du versuchst, mit deinen Fingern eine Tasse zu greifen oder eine Flagge zu schwenken, wird es chaotisch. Die KI kann deine feinen Fingerbewegungen nicht richtig verstehen. Es ist, als würdest du versuchen, mit einem riesigen Bagger einen feinen Strich zu malen – zu grob und ungenau.

2. Die Lösung: Ein Künstler, der deine Hände sieht

Die Forscher haben eine neue Art von KI entwickelt, die wie ein genialer Maler ist, der nicht nur auf deine Worte hört, sondern genau hinblickt, was du mit deinen Händen machst.

  • Der Trick: Normalerweise kennt die KI nur grobe Bewegungen. Diese neue KI hat jedoch ein „drittes Auge". Sie sieht nicht nur, wo dein Kopf ist (Kamera), sondern auch, wie sich jeder einzelne Fingerknochen bewegt.
  • Die Mischung (Hybrid-Strategie): Um das zu erreichen, haben die Forscher zwei Dinge kombiniert:
    1. Ein 2D-Bild von deinem Handgerüst (wie eine Skizze), damit die KI weiß, wo die Hand im Bild ist.
    2. 3D-Daten über die Gelenkwinkel, damit die KI genau weiß, wie die Hand im Raum dreht und greift.
    • Analogie: Stell dir vor, du malst ein Bild. Die 2D-Skizze sagt dir, wo der Pinsel ist. Die 3D-Daten sagen dir, wie du den Pinsel drehst, um die Farbe richtig aufzutragen. Ohne beides wäre das Bild schief.

3. Wie es funktioniert: Der „Zauberspiegel"

Stell dir vor, du stehst vor einem Zauberspiegel.

  • Du winkst mit der Hand.
  • Der Spiegel (die KI) denkt nicht nach, er reagiert sofort.
  • Er malt eine neue Szene: Vielleicht bist du auf einem fremden Planeten, und wenn du winkst, winkt ein Alien zurück. Oder du hältst einen Schlüssel, und der Spiegel malt eine Tür, die sich öffnet.
  • Das Besondere: Der Spiegel braucht keine fertigen 3D-Welten. Er erfindet die Welt in dem Moment, in dem du sie betrachtest. Es ist wie ein Film, der live für dich gedreht wird, basierend auf dem, was du tust.

4. Der Test: Besser als nur Textbefehle

Die Forscher haben das mit echten Menschen getestet.

  • Szenario A (Alt): Die Leute sagten nur: „Drücke den grünen Knopf." Die KI versuchte es, aber oft drückte sie daneben oder die Hand verschwand.
  • Szenario B (Neu): Die Leute bewegten ihre echten Hände in der Luft. Die KI sah das und bewegte die virtuelle Hand exakt so.
  • Das Ergebnis: Die Leute waren viel erfolgreicher (von 3 % auf über 70 % Erfolg!) und fühlten sich viel mehr als Herr ihrer eigenen Handlungen. Es fühlte sich nicht mehr an, als würde man gegen einen Roboter kämpfen, sondern als würde man wirklich etwas tun.

5. Warum ist das wichtig?

Stell dir vor, du möchtest lernen, wie man ein Auto repariert, oder üben, wie man einen gefährlichen Knoten in der Chirurgie bindet.

  • Heute: Du brauchst teure Modelle, Simulationen, die Jahre dauern zu bauen.
  • Mit „Generated Reality": Du setzt die Brille auf, sagst „Zeig mir eine Werkstatt", und die KI malt sie dir. Du greifst nach einem virtuellen Schraubenschlüssel, und die KI passt die Welt sofort an deine Handbewegung an. Du kannst komplexe Dinge üben, ohne dass jemand vorher eine 3D-Welt programmieren muss.

Zusammenfassung

Dieses Projekt ist wie der Übergang vom Fernsehen zum Live-Theater.
Früher hast du nur zugeschaut (Video). Jetzt bist du der Regisseur und der Hauptdarsteller gleichzeitig. Die KI ist dein Assistent, der sofort versteht, wenn du mit dem Finger zeigst, und die Welt genau so verändert, wie du es dir vorstellst. Es ist der erste Schritt zu einer Welt, die sich nicht nur abspielt, sondern mit dir lebt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →