RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

Die Arbeit stellt RnG vor, einen einheitlichen Feed-Forward-Transformer, der durch einen rekonstruktionsgesteuerten kausalen Aufmerksamkeitsmechanismus und einen impliziten 3D-KV-Cache sowohl sichtbare Geometrie präzise rekonstruiert als auch plausible, unsichtbare Strukturen generiert, um vollständige 3D-Modelle aus partiellen 2D-Beobachtungen in Echtzeit zu erstellen.

Mochu Xiang, Zhelun Shen, Xuesong Li, Jiahui Ren, Jing Zhang, Chen Zhao, Shanshan Liu, Haocheng Feng, Jingdong Wang, Yuchao Dai

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie halten ein Objekt in der Hand – sagen wir, eine kleine Statue eines Drachen. Sie drehen es langsam und machen ein paar Fotos davon. Aber Sie sehen nur die Seite, die gerade zur Kamera zeigt. Die Rückseite, die Unterseite und die Innenseiten der Flügel sind für Sie unsichtbar.

Bisherige KI-Modelle waren wie sehr ehrliche, aber etwas beschränkte Maler: Sie malten genau das, was sie sahen. Wenn Sie die Rückseite des Drachen sahen, sagten sie: „Da ist nichts, ich kann das nicht malen." Das Ergebnis war oft ein lückenhaftes, zerklüftetes 3D-Modell, das nur die sichtbaren Teile zeigte.

RnG (Reconstruction and Generation) ist wie ein genialer, visionärer Architekt, der nur ein paar Fotos sieht und sich den ganzen Drachen – inklusive der unsichtbaren Teile – so genau vorstellen kann, dass er ihn komplett neu erschafft.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Bildern:

1. Der „Gedächtnis-Speicher" (Die KV-Cache)

Stellen Sie sich vor, Sie schauen sich ein Haus an. Ein normaler Beobachter merkt sich nur die Fenster und die Tür, die er gerade sieht. RnG hingegen baut sich sofort ein unsichtbares, perfektes 3D-Modell im Kopf auf.

In der Technik-Sprache nennt man das KV-Cache (Key-Value Cache).

  • Die Analogie: Stellen Sie sich vor, RnG ist ein Detektiv, der in ein Zimmer geht. Er nimmt nicht nur ein Foto, sondern erstellt sofort eine vollständige 3D-Karte des Raumes in seinem Kopf. Diese Karte ist unsichtbar, aber sie enthält alle Informationen über Form und Farbe.
  • Sobald diese Karte erstellt ist (was in weniger als einer Sekunde passiert), muss RnG das Zimmer nicht noch einmal von vorne betrachten. Er kann sich einfach in seinen Kopf „hineinversetzen" und das Zimmer aus jeder beliebigen Perspektive betrachten, auch aus Ecken, die er nie gesehen hat.

2. Der „Einbahnstraßen-Verkehr" (Reconstruction-Guided Causal Attention)

Normalerweise arbeiten zwei Aufgaben in der KI oft durcheinander: Das Verstehen (Rekonstruktion) und das Erfinden (Generierung). RnG trennt diese Aufgaben clever, aber nutzt dieselben Werkzeuge.

  • Die Analogie: Stellen Sie sich einen Zug vor, der durch eine Landschaft fährt.
    • Der erste Teil des Zuges (Rekonstruktion): Er nimmt die Fotos der sichtbaren Teile auf und baut die 3D-Karte im Speicher auf. Er darf nicht auf die Zukunft schauen, er muss sich nur auf das konzentrieren, was da ist.
    • Der zweite Teil des Zuges (Generierung): Sobald die Karte im Speicher ist, darf dieser Teil des Zuges auf die Karte zugreifen und sich vorstellen, wie die Landschaft aussieht, wenn man sie von der anderen Seite betrachtet.
    • Der Trick: Der zweite Teil darf den ersten nicht stören. Das nennt man „kausale Aufmerksamkeit". Es ist wie eine Einbahnstraße im Gehirn der KI: Die Informationen fließen vom Sehen zum Speichern, und vom Speichern zum Erfinden, aber nicht zurück. Das macht den Prozess extrem schnell und stabil.

3. Der „Sofort-Scanner"

Frühere Methoden, die auch unsichtbare Teile erfinden konnten (wie Diffusionsmodelle), waren wie ein Künstler, der Stunden braucht, um jeden Pinselstrich zu überdenken und zu korrigieren. Sie waren langsam und rechenintensiv.

RnG ist wie ein Hochgeschwindigkeits-Scanner.

  • Es braucht nur einen einzigen Durchgang (ein „Feed-Forward"-Schritt).
  • Es liest die unsichtbare 3D-Karte aus dem Speicher und malt sofort ein neues Bild oder eine neue 3D-Form aus einer neuen Perspektive.
  • Geschwindigkeit: Während andere Modelle Minuten brauchen, schafft RnG das in unter einer Sekunde auf einer modernen Grafikkarte. Das ist schnell genug, um es in Echtzeit-Anwendungen (wie VR oder Robotik) zu nutzen.

Was macht RnG also konkret?

  1. Es sieht mehr als die Kamera: Wenn Sie ein Objekt nur von drei Seiten fotografieren, füllt RnG die Lücken intelligent auf. Es „halluziniert" keine wilden Fantasien, sondern erstellt plausible, logische Formen, die zum Rest des Objekts passen.
  2. Es ist konsistent: Wenn Sie das 3D-Modell drehen, sieht es nicht aus, als würde es sich auflösen oder verformen. Die Rückseite bleibt stabil, egal wie oft Sie das Modell drehen.
  3. Es ist ein Alleskönner: Ein einziges Modell erledigt beides: Es rekonstruiert das, was man sieht, und generiert das, was man nicht sieht.

Zusammenfassung

RnG ist wie ein magischer 3D-Drucker für das Gehirn. Sie geben ihm ein paar Fotos, und er druckt nicht nur das, was auf den Fotos zu sehen ist, sondern den kompletten, runden, perfekten Gegenstand – inklusive der Rückseite, die Sie nie gesehen haben. Und das alles so schnell, dass Sie kaum blinzeln können.

Das ist ein riesiger Schritt weg von „wir sehen nur, was da ist" hin zu „wir verstehen den ganzen Raum".