RelaxFlow: Text-Driven Amodal 3D Generation

RelaxFlow ist ein trainingsfreies Framework, das durch die Entkopplung von Kontrollgranularitäten und die Anwendung eines Relaxationsmechanismus textgesteuerte amodale 3D-Generierung ermöglicht, bei der verdeckte Bereiche präzise vervollständigt werden, ohne die visuelle Integrität der sichtbaren Eingabe zu beeinträchtigen.

Jiayin Zhu, Guoji Fu, Xiaolu Liu, Qiyuan He, Yicong Li, Angela Yao

Veröffentlicht 2026-03-06
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du stehst vor einem verschneiten Wald und siehst nur die Spitze eines riesigen, schneebedeckten Objekts. Ist es ein riesiger Weihnachtsbaum? Ein verschneiter Hügel? Oder vielleicht ein riesiger, weißer Teddybär?

Dein Gehirn ist extrem gut darin, das Unsichtbare zu ergänzen. Es sagt dir: "Okay, ich sehe nur die Spitze, aber basierend auf meiner Erfahrung mit Bäumen, ist das wahrscheinlich ein Baum." Das nennt man amodale Wahrnehmung – die Fähigkeit, das Ganze zu sehen, auch wenn nur ein Teil sichtbar ist.

Künstliche Intelligenz (KI) ist in diesem Bereich bisher eher wie ein starrer Roboter. Wenn sie nur die Spitze sieht, errät sie oft einfach das "wahrscheinlichste" Ding (vielleicht einen Baum) und ignoriert, was du eigentlich im Kopf hast.

Hier kommt RelaxFlow ins Spiel. Es ist eine neue Methode, die KI nicht nur das Sichtbare zeigen lässt, sondern ihr erlaubt, das Unsichtbare basierend auf deinen Wünschen (Texteingaben) zu gestalten, ohne dabei das Sichtbare zu zerstören.

Hier ist die Erklärung, wie das funktioniert, mit ein paar einfachen Bildern:

1. Das Problem: Der "Über-angepasste" KI-Künstler

Stell dir vor, du gibst einer KI ein Foto von einem halb verdeckten Möbelstück und sagst: "Mach daraus ein Sofa."

  • Die alte KI (z. B. SAM3D): Sie schaut nur auf das, was sie sieht (vielleicht ein Holzbrett). Da sie nicht weiß, was dahinter ist, erfindet sie einfach etwas, das zu diesem Brett passt. Oft ist das Ergebnis ein Bett, weil "Bett" statistisch am häufigsten zu so einem Brett passt. Sie ignoriert dein Wort "Sofa". Sie ist zu stur.
  • Die andere KI (Text-zu-3D): Sie hört auf dein Wort "Sofa", aber sie vergisst dabei das Foto. Sie malt ein Sofa, das gar nicht mehr wie das Brett auf dem Foto aussieht. Sie ist zu fantasievoll und zerstört die Realität.

2. Die Lösung: RelaxFlow – Der "Zwei-Kanal-Steuerungsmechanismus"

RelaxFlow löst dieses Problem, indem es die Steuerung in zwei getrennte Kanäle aufteilt, wie ein Auto mit zwei verschiedenen Fahrern:

  • Fahrer A (Der strenge Wächter): Dieser Fahrer kümmert sich nur um das, was auf dem Foto zu sehen ist. Er hält das Lenkrad fest und sorgt dafür, dass die sichtbaren Teile (das Holzbrett) exakt so bleiben, wie sie sind. Er ist starr und präzise.
  • Fahrer B (Der lockere Traumtänzer): Dieser Fahrer kümmert sich um das, was nicht zu sehen ist. Er hört auf deinen Text ("Sofa"). Aber anstatt stur zu sein, ist er entspannt (relaxiert). Er weiß: "Ich muss die grobe Form eines Sofas bauen, aber ich darf nicht zu sehr ins Detail gehen, damit ich den Wächter nicht störe."

3. Der Trick: Der "Nebel-Filter" (Low-Pass Filter)

Das ist der geniale Teil der Wissenschaft. Wie macht der "lockere Fahrer" (Fahrer B) das?

Stell dir vor, der Text "Sofa" ist wie ein lautes, scharfes Geräusch mit vielen hohen Tönen (Details wie "rotes Samtkissen", "goldene Beine"). Wenn die KI diesen Text direkt nimmt, wird sie verrückt und versucht, jedes Detail des Sofas zu bauen, was das sichtbare Brett auf dem Foto zerstört.

RelaxFlow legt einen Nebel-Filter über den Text.

  • Dieser Filter nimmt die hohen, scharfen Töne (die spezifischen Details) heraus.
  • Übrig bleibt nur das tiefe, dröhnende Grundgerüst: "Es ist etwas Weiches, Sitzendes, mit einer Rückenlehne."
  • Die Analogie: Stell dir vor, du malst ein Bild. Der Text sagt "Sofa". Der Filter wischt die Details weg, sodass nur noch eine grobe, weiche Wolke der Form "Sofa" übrig bleibt. Die KI baut dann dieses grobe "Sofa-Gerüst" in den unsichtbaren Bereich, passt es aber perfekt an das sichtbare Brett an.

4. Der "Konsens-Rat" (Multi-Prior Consensus)

Da die KI den Text nicht direkt in 3D übersetzen kann (sie spricht eher "Bild-Sprache"), holt sich RelaxFlow Hilfe.

  • Wenn du "Sofa" sagst, sucht die KI nicht nur ein Bild, sondern holt sich drei verschiedene Bilder von Sofas (eines aus Leder, eines aus Stoff, eines modern, eines alt).
  • Sie schaut sich alle drei an und fragt: "Was haben diese drei gemeinsam?"
  • Antwort: "Alle haben eine Sitzfläche und eine Lehne."
  • Was sie nicht gemeinsam haben (die Farbe, das Muster), wird ignoriert.
  • So bekommt die KI eine durchschnittliche, saubere Idee von einem Sofa, ohne von unnötigen Details abgelenkt zu werden.

5. Das Ergebnis: Ein perfekter Tanz

Am Ende werden die beiden Fahrer (der strenge Wächter für das Sichtbare und der lockere Traumtänzer für das Unsichtbare) zusammengeführt.

  • Wo du das Foto siehst: 100% Original. Nichts wird verändert.
  • Wo das Objekt verdeckt ist: 100% dein Wunsch. Es wird ein Sofa gebaut, das perfekt zum sichtbaren Teil passt.

Warum ist das wichtig?

Bisher mussten wir uns entscheiden: Entweder wir behalten das Foto genau bei (und das Ergebnis ist vielleicht langweilig oder falsch), oder wir lassen die KI frei (und das Foto wird zerstört).

RelaxFlow sagt: "Warum nicht beides?" Es erlaubt uns, die KI wie einen Assistenten zu benutzen, der sagt: "Ich sehe, was du siehst, und ich baue dir genau das, was du dir vorstellst, für den Rest."

Es ist wie bei einem Puzzle, bei dem du nur ein paar Teile hast. Früher hat die KI einfach das Puzzle beendet, wie sie wollte. RelaxFlow fragt dich: "Was soll das Puzzle sein?" und fügt dann die fehlenden Teile so ein, dass sie perfekt zu deinen wenigen vorhandenen Teilen passen, ohne diese zu verändern.