One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

Das Paper stellt One2Scene vor, ein Framework, das aus einem einzigen Bild erkundbare 3D-Szenen erzeugt, indem es die Aufgabe in die Generierung von Ankeransichten, den Aufbau eines geometrischen Gerüsts mittels Gaussian Splatting und die Erzeugung neuer Ansichten zerlegt, um so stabile und geometrisch konsistente Ergebnisse auch bei großen Kamerabewegungen zu gewährleisten.

Pengfei Wang, Liyi Chen, Zhiyuan Ma, Yanjun Guo, Guowen Zhang, Lei Zhang

Veröffentlicht 2026-03-02
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Ein Foto ist wie ein gefrorener Moment

Stell dir vor, du hast ein wunderschönes Foto von einem Zimmer oder einer Landschaft. Es ist toll, aber es ist starr. Wenn du versuchst, dich auf dem Bild „nach links" zu bewegen, passiert nichts. Du kannst nicht um eine Ecke schauen oder hinter einen Baum gehen.

Bisherige KI-Methoden haben versucht, aus diesem einen Foto eine 3D-Welt zu bauen, damit man sich darin bewegen kann. Aber das ging oft schief:

  • Der „Spaghetti-Effekt": Wenn man sich im Bild bewegt, verziehen sich Wände und Objekte wie gekochte Nudeln.
  • Der „Halluzinations-Effekt": Die KI erfindet Dinge, die gar nicht da sind, oder vergisst, wie ein Stuhl aussieht, sobald man ihn nicht mehr direkt ansieht.

Die Lösung: One2Scene – Der dreistufige Baumeister

Die Forscher von der Hong Kong Polytechnic University haben eine neue Methode namens One2Scene entwickelt. Sie bauen eine begehbare 3D-Welt aus nur einem einzigen Bild. Statt alles auf einmal zu errichten, teilen sie das Problem in drei einfache Schritte auf.

Stell dir das wie den Bau eines Hauses vor:

Schritt 1: Der 360-Grad-Blick (Das Panorama)

Stell dir vor, du stehst in der Mitte des Raumes und drehst dich langsam um 360 Grad. Du siehst alles um dich herum.

  • Was die KI macht: Sie nimmt dein einzelnes Foto und „erweitert" es virtuell zu einem riesigen 360-Grad-Panorama. Sie füllt die Lücken, die du auf dem Originalfoto nicht sehen konntest (z. B. was hinter dir war).
  • Die Analogie: Es ist wie wenn du ein kleines Fenster in eine Wand hast und die KI die ganze Wand um das Fenster herum malt, damit du den ganzen Raum siehst.

Schritt 2: Das Gerüst (Der 3D-Skelett-Bau)

Jetzt haben wir ein flaches Bild, das sich um uns dreht. Aber ein flaches Bild hat keine Tiefe. Wenn du dich jetzt bewegst, bleibt das Bild einfach nur flach wie ein Poster.

  • Was die KI macht: Sie nimmt dieses Panorama und baut daraus ein sichtbares 3D-Gerüst (ein „Scaffold"). Sie berechnet genau, wie weit die Wände, der Boden und die Möbel entfernt sind.
  • Der Trick: Statt das Panorama als ein einziges Bild zu betrachten, zerlegt die KI es in sechs kleine Fenster (wie die Seiten eines Würfels). Sie nutzt diese, um wie ein Stereosehen (mit zwei Augen) die Tiefe zu berechnen.
  • Die Analogie: Stell dir vor, du hast eine leere Schachtel. Die KI füllt sie nicht mit Farbe, sondern baut erst ein stabiles Holzgerüst hinein. Dieses Gerüst sagt der KI genau: „Hier ist der Boden, dort ist die Decke, und der Stuhl steht genau 2 Meter entfernt." Ohne dieses Gerüst würde das Haus später zusammenfallen.

Schritt 3: Das Bemalen (Die neue Perspektive)

Jetzt haben wir ein stabiles 3D-Gerüst. Aber es sieht noch aus wie ein Drahtgitter oder eine grobe Skizze.

  • Was die KI macht: Jetzt kommt der Künstler ins Spiel. Die KI nutzt das stabile Gerüst als Anleitung, um neue Bilder aus jeder beliebigen Perspektive zu malen. Weil das Gerüst die Abstände festlegt, weiß die KI genau, wie groß ein Objekt sein muss, egal aus welchem Winkel man es betrachtet.
  • Die Analogie: Es ist wie bei einem Maler, der eine Skizze auf der Leinwand hat. Er weiß genau, wo die Linien sind. Wenn er nun ein neues Bild aus einem anderen Blickwinkel malt, verzerrt er die Proportionen nicht, weil das Gerüst ihn „im Zaum hält".

Warum ist das so besonders?

  1. Kein „Wackeln" mehr: Bei alten Methoden passte sich die Welt nicht an, wenn man sich bewegte. Bei One2Scene bleibt die Welt stabil, weil das 3D-Gerüst (Schritt 2) die Geometrie festhält.
  2. Keine Erfindungen: Da die KI auf dem Gerüst aufbaut, erfindet sie keine neuen Möbel oder Wände, wenn sie um eine Ecke schaut. Sie weiß, was dort sein muss.
  3. Geschwindigkeit: Das ganze System ist so optimiert, dass es in weniger als einer Sekunde das Gerüst baut. Das ist wie der Unterschied zwischen einem Handwerker, der Tage braucht, und einem 3D-Drucker, der es in Sekunden schafft.

Zusammenfassung in einem Satz

One2Scene nimmt ein einzelnes Foto, baut daraus erst eine 360-Grad-Umgebung, errichtet darauf ein stabiles 3D-Skelett, damit die Welt nicht wackelt, und malt dann darauf basierend neue, realistische Bilder aus jedem beliebigen Blickwinkel – so, als würdest du tatsächlich durch das Bild laufen können.

Das Ergebnis sind 3D-Welten, die so aussehen, als wären sie echt, und in denen man sich sicher bewegen kann, ohne dass die Wände zu Spaghetti werden.