Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Das Paper stellt Holi-Spatial vor, den ersten vollständig automatisierten, groß angelegten multimodalen Datensatz, der aus Rohvideodaten ohne menschliches Eingreifen erstellt wurde, um durch hochwertige 3D-Rekonstruktionen und räumliche Frage-Antwort-Paare das Training von Modellen für räumliche Intelligenz zu verbessern.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Computer beibringen, wie ein Mensch die Welt zu sehen und zu verstehen. Nicht nur flache Bilder, sondern den echten, dreidimensionalen Raum: Wo steht der Stuhl im Verhältnis zum Tisch? Wie weit ist es zum Fenster? In welche Richtung muss ich mich drehen, um den Schlüssel zu finden?

Das ist das Ziel von Holi-Spatial. Aber hier ist das Problem: Um einem Computer das beizubringen, braucht man riesige Mengen an Daten. Bisher mussten Menschen stundenlang vor Computern sitzen und jeden einzelnen Gegenstand in 3D-Modellen von Hand markieren. Das ist wie der Versuch, einen Ozean mit einem kleinen Eimer zu füllen – es dauert ewig und ist extrem teuer.

Holi-Spatial ist die Lösung: Ein vollautomatischer „Roboter-Koch", der aus rohem Videomaterial (wie Handyvideos von Räumen) automatisch perfekte 3D-Karten und Beschreibungen zaubert, ohne dass ein Mensch die Hand aufheben muss.

Hier ist die einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Handwerker"-Ansatz

Bisher haben Forscher wie Handwerker gearbeitet. Sie haben ein paar dutzend 3D-Räume (wie ScanNet) genommen, die Menschen mühsam vermessen haben, und daraus Fragen und Antworten generiert.

  • Das Problem: Das ist wie ein Koch, der nur mit drei verschiedenen Gemüsesorten kocht. Der Computer lernt nur diese wenigen Dinge und versteht die echte, chaotische Welt nicht. Wenn er dann einen neuen Raum sieht, der nicht in seiner kleinen Liste war, ist er verwirrt.

2. Die Lösung: Der „Automatische 3D-Drucker" (Holi-Spatial)

Holi-Spatial ist ein System, das Videos nimmt und sie in eine vollständige 3D-Welt verwandelt. Es läuft in drei Schritten ab, die man sich wie einen cleveren Detektiv vorstellen kann:

Schritt 1: Die geometrische Reinigung (Der „Architekt")

Das System schaut sich das Video an und baut erst einmal eine grobe 3D-Struktur auf. Aber rohe Videos sind oft unscharf oder haben „Geister" (doppelte Bilder von Gegenständen, die durch Bewegung entstehen).

  • Die Analogie: Stell dir vor, du hast eine unscharfe Skizze eines Raumes. Der Architekt (Holi-Spatial) nutzt eine spezielle Technik (3D-Gaussian Splatting), um die Wände gerade zu rücken, die Geister zu entfernen und sicherzustellen, dass der Boden wirklich flach ist. Das Ergebnis ist eine saubere, physikalisch korrekte 3D-Grundstruktur.

Schritt 2: Das Sehen und Benennen (Der „Augenarzt")

Jetzt schaut sich das System einzelne Bilder aus dem Video an. Es nutzt einen sehr klugen KI-Modell (einen „Vision-Language Model"), der wie ein sehr gebildeter Augenspezialist ist.

  • Die Analogie: Dieser Spezialist sieht nicht nur „einen Gegenstand", sondern erkennt: „Das ist ein rotes Sofa mit blauen Kissen" oder „Das ist ein alter Holzleuchter". Er malt dann präzise Umrisse (Masken) um diese Gegenstände.
  • Der Trick: Er merkt sich, was er schon gesehen hat. Wenn er in Bild 1 ein Sofa sieht und in Bild 2 wieder ein Sofa, nennt er es nicht „Gegenstand A" und „Gegenstand B", sondern erkennt: „Ah, das ist dasselbe Sofa!"

Schritt 3: Der große Zusammenbau (Der „Chef-Detektiv")

Jetzt hat das System viele 2D-Bilder mit Markierungen. Es muss diese nun zu einem einzigen 3D-Objekt zusammenfügen.

  • Das Problem: Manchmal sieht man ein Sofa aus fünf verschiedenen Winkeln. Das System hat also fünf verschiedene „Teile" desselben Sofas.
  • Die Lösung: Der Chef-Detektiv (ein KI-Agent) wirft alle diese Teile in einen Topf. Er prüft: „Sind das wirklich dasselbe Sofa?" Wenn ja, verschmilzt er sie zu einem perfekten 3D-Modell.
  • Der Sicherheitscheck: Wenn der Detektiv unsicher ist (z. B. bei einem verdeckten Gegenstand), ruft er einen noch klügeren KI-Experten hinzu, der das Bild heranzoomt und sagt: „Ja, das ist definitiv ein Staubsauger, behalte es!" oder „Nein, das ist nur ein Schatten, weg damit."

3. Das Ergebnis: Holi-Spatial-4M

Am Ende hat das System nicht nur ein paar Räume, sondern 4 Millionen hochwertige Datenpunkte erstellt.

  • Es hat 12.000 perfekt rekonstruierte 3D-Räume.
  • Es hat Millionen von Fragen und Antworten generiert: „Wenn du am Schreibtisch stehst und zum Koffer schaust, wo ist die Flasche?"
  • Es hat Millionen von 3D-Boxen (unsichtbare Kisten, die genau um jeden Gegenstand passen).

Warum ist das so wichtig?

Bisher mussten wir Computer wie Kinder behandeln, denen wir nur ein paar Bilder zeigen. Mit Holi-Spatial geben wir ihnen eine Enzyklopädie der gesamten Welt.

Wenn man jetzt KI-Modelle (wie Qwen-VL) mit diesen Daten trainiert, passiert Magie:

  • Sie werden plötzlich räumlich intelligent. Sie verstehen nicht nur, was ein Objekt ist, sondern wo es ist und wie es sich zu anderen verhält.
  • In Tests hat sich gezeigt, dass diese Modelle plötzlich viel besser darin sind, Objekte in 3D zu finden oder Richtungen zu beschreiben – fast wie ein Mensch, der den Raum durchschaut.

Zusammenfassung in einem Satz

Holi-Spatial ist wie ein automatischer Übersetzer, der aus langweiligen Videos eine riesige, perfekte 3D-Welt mit Beschriftungen und Rätseln baut, damit Roboter und KI endlich lernen können, sich in unserer dreidimensionalen Realität zurechtzufinden – ganz ohne mühsame Handarbeit.