RePer-360: Releasing Perspective Priors for 360$^\circ$ Depth Estimation via Self-Modulation

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der Fischauge-Effekt

Stell dir vor, du hast einen sehr klugen Fotografen (das ist das KI-Modell), der jahrelang nur normale, rechteckige Fotos gemacht hat. Er kennt sich super mit Häusern, Straßen und Möbeln aus. Er weiß genau, wie ein Tisch aussieht, wenn man ihn von vorne betrachtet.

Jetzt willst du diesen Fotografen bitten, ein 360-Grad-Panoramafoto zu bewerten. Das ist wie ein Foto, das man von innen in einer Kugel gemacht hat, wo man sich umdrehen kann. Das Problem? Ein 360-Grad-Bild sieht für den Fotografen völlig verzerrt aus. Die Wände oben am Rand sind wie ein riesiger Fischauge-Effekt, alles ist gestreckt und krumm.

Wenn man den Fotografen jetzt einfach zwingt, diese verzerrten Bilder zu lernen, passiert oft eines von zwei Dingen:

Er vergisst alles, was er vorher gelernt hat, und macht Fehler.
Man braucht eine riesige Bibliothek mit tausenden 360-Grad-Bildern, damit er überhaupt versteht, was los ist. Das ist teuer und aufwendig.

Die Lösung: RePer-360 (Der „Korrektur-Filter")

Die Forscher haben eine clevere Methode namens RePer-360 entwickelt. Stell dir das nicht als einen neuen Fotografen vor, sondern als einen intelligenten Brillen-Filter, den man dem alten Fotografen aufsetzt.

Hier ist, wie es funktioniert, mit ein paar Vergleichen:

1. Nicht neu lernen, sondern anpassen (Die „Brille")

Statt den Fotografen zu zwingen, alles neu zu lernen (was ihn verwirren würde), behält er sein altes Wissen bei. Das System nutzt zwei verschiedene „Blickwinkel" auf das Bild:

Blickwinkel A (ERP): Das ist das verzerrte 360-Grad-Bild.
Blickwinkel B (CP): Das ist das Bild, das man sich wie einen Würfel vorstellt, der um das Bild herumgelegt wurde. Auf den Flächen dieses Würfels sieht das Bild wieder normal und rechteckig aus.

Das System schaut sich beide Bilder an. Es nutzt den „Würfel-Blick", um zu verstehen, wie die Geometrie eigentlich sein sollte, und nutzt den „Fischauge-Blick", um den Kontext zu behalten.

2. Der „Selbst-Modulator" (Der Dirigent)

Das Herzstück ist eine Technik namens Selbst-Modulation. Stell dir das KI-Modell wie ein Orchester vor.

Früher hat man versucht, die Musik (die Bildmerkmale) komplett neu zu mischen, was oft chaotisch klang.
Bei RePer-360 bleibt das Orchester (das KI-Modell) gleich. Stattdessen bekommt der Dirigent (das neue Modul) eine neue Partitur.
Dieser Dirigent sagt den Musikern nicht, was sie spielen sollen, sondern wie sie es spielen sollen. Er sagt: „Hier ist die Wand, die ist verzerrt, also spielt leiser" oder „Hier ist der Tisch, der ist normal, also spielt laut".
So wird das alte Wissen des Fotografen nicht gelöscht, sondern nur dort angepasst, wo die Verzerrung des 360-Grad-Bildes ihn verwirren würde.

3. Der „Würfel-Check" (Die Sicherheitskontrolle)

Um sicherzustellen, dass das System nicht verrückt spielt, gibt es eine zusätzliche Kontrolle. Das System rechnet das Ergebnis immer wieder in den „Würfel-Blick" um. Wenn die Tiefe auf den Würfelseiten logisch aussieht, ist alles gut. Wenn nicht, wird es korrigiert. Das verhindert, dass das System an den Rändern des Bildes (wo die Verzerrung am schlimmsten ist) Unsinn produziert.

Warum ist das so genial?

Weniger Daten, mehr Erfolg: Früher brauchte man 120.000 360-Grad-Bilder, um ein gutes Modell zu trainieren. RePer-360 kommt mit nur 1.000 Bildern (also 1 % der Daten) aus und ist trotzdem besser. Es ist, als würde man einen Schüler mit einem einzigen Lehrbuch besser unterrichten als einen anderen mit einer ganzen Bibliothek, weil der Schüler die richtigen Werkzeuge hat.
Kein Gedächtnisverlust: Das Modell vergisst nicht, wie ein normales Haus aussieht. Es behält sein „Gefühl" für Perspektive bei, passt es aber geschickt an die Kugelwelt an.
Bessere Ergebnisse: In Tests hat das System deutlich präzisere Tiefenbilder geliefert als die bisherigen Besten, besonders bei komplexen Räumen mit vielen Ecken und Verzerrungen.

Zusammenfassung in einem Satz

RePer-360 ist wie ein intelligenter Übersetzer, der einem KI-Modell, das nur flache Bilder kennt, hilft, 360-Grad-Kugelfotos zu verstehen, ohne ihm dabei sein gesamtes bisheriges Wissen zu nehmen – und das alles mit einem Bruchteil der üblichen Trainingsdaten.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Tiefe-Foundation-Modelle (wie Depth Anything Models), die auf perspektivischen Bildern trainiert wurden, zeigen zwar starke Leistungen bei Standardbildern, versagen jedoch oft bei 360°-Panoramabildern. Der Hauptgrund dafür ist eine signifikante geometrische Diskrepanz: Die vorab trainierten Repräsentationen folgen den Statistiken des perspektivischen Domänen, während 360°-Bilder durch starke Verzerrungen (Distortion) gekennzeichnet sind, die diese Priors verletzen.

Bestehende Lösungsansätze haben zwei wesentliche Nachteile:

Projektionsbasierte Fusion: Methoden, die Panoramen in mehrere perspektivische Ansichten zerlegen und diese fusionieren (z. B. MoGe-2), führen oft zu Artefakten, ignorieren die globale sphärische Geometrie und sind rechenintensiv.
Vollständiges Fine-Tuning: Das direkte Nachtrainieren von Modellen mit großen Mengen an 360°-Daten (z. B. PanDA) ist datenhungrig. Ohne explizite Modellierung der Verzerrungen kann dies dazu führen, dass die wertvollen vorab trainierten perspektivischen Priors überschrieben werden oder die Repräsentation "driftet" (Representation Drift), was die Generalisierungsfähigkeit verschlechtert.

2. Methodik: RePer-360

Das vorgeschlagene Framework RePer-360 löst dieses Problem durch einen verzerrungsbewussten Selbst-Modulationsansatz (Self-Modulation). Anstatt Merkmale aus verschiedenen Projektionen direkt zu fusionieren, werden sie als Leitungszeichen (Guidance) genutzt, um das Modell anzupassen, ohne die ursprünglichen Priors zu zerstören.

Die Architektur besteht aus drei Hauptkomponenten:

A. Geometry-Aligned Guidance (GAG)

Dieses Modul extrahiert Modulationssignale aus zwei komplementären Projektionen:

ERP (Equirectangular Projection): Die ursprüngliche Panorama-Darstellung.
CP (Cubemap Projection): Eine Aufteilung in 6 perspektivische Flächen, die lokale geometrische Konsistenz bietet.

Der GAG-Modul führt zwei Schritte durch:

Statistische Ausrichtung: Eine parametrische affine Transformation normalisiert die CP-Merkmale an die statistische Verteilung (Mittelwert und Varianz) der ERP-Merkmale, um lokale Details zu erhalten.
Adaptives Gating: Ein lernbarer Mechanismus gewichtet die ausgerichteten CP-Merkmale und die ERP-Merkmale räumlich adaptiv. In detaillierten Bereichen dominieren die CP-Merkmale (für geometrische Genauigkeit), in glatten Bereichen die ERP-Merkmale (für globale Kontextstabilität). Das Ergebnis ist ein geometrieausgerichteter Guidance-Signal ( $F_{GAG}$ ).

B. Self-Conditioned AdaLN-Zero (SCAdaLN-Zero)

Dies ist das Kernmodul zur Anpassung des Frozen Backbone (Depth Anything Model).

Statt die Merkmalswerte direkt zu ändern (z. B. durch Cross-Attention), werden die Guidance-Signale genutzt, um die Normalisierungsparameter (Scale und Shift) in den Transformer-Schichten zu modulieren.
Ein leichtgewichtiges Netzwerk (SiLU + Depthwise Separable Convolution) generiert aus $F_{GAG}$ Skalierungs- ( $\gamma$ ) und Verschiebungsparameter ( $\beta$ ).
Zero-Initialization: Die letzten Faltungsschichten werden mit Null initialisiert. Dies stellt sicher, dass das Modell zu Beginn des Trainings identisch zum ursprünglichen perspektivischen Modell ist und sich nur stabil und kontrolliert anpasst.
Dies ermöglicht eine verzerrungsbewusste Nachjustierung der Merkmale, während die strukturellen Priors erhalten bleiben.

C. E2C Consistency Loss (ECCLoss)

Um die durch die sphärische Projektion verursachte Ungleichgewichtigkeit (Polregionen vs. Äquator) zu kompensieren, wird ein Konsistenzverlust im Cubemap-Domain eingeführt.

Sowohl die Vorhersage als auch der Ground Truth werden von ERP nach CP transformiert.
Ein Scale-Shift Invariant Mean Absolute Error (SSI-MAE) wird auf den 6 Flächen des Cubemaps berechnet.
Dies erzwingt geometrische Konsistenz zwischen den Projektionen und reduziert Verzerrungsartefakte, insbesondere in den Polregionen.

3. Wichtige Beiträge

Neue Formulierung der Domänenanpassung: Die Autoren reformulieren die Anpassung von Panoramen als verzerrungsbewusste, leitgestützte Domänenanpassung. Komplementäre Projektionen dienen nicht der harten Fusion, sondern als strukturierte Guidance für die Erhaltung der Priors.
SCAdaLN-Zero Framework: Ein neuartiger Mechanismus, der die Anpassung durch Normalisierungsmodulation statt durch Feature-Fusion realisiert. Dies verhindert das Überschreiben von Vorwissen und ermöglicht eine stabile Anpassung mit minimalen Daten.
Hohe Dateneffizienz: Das Modell erreicht State-of-the-Art (SOTA) Ergebnisse mit nur 1 % der Trainingsdaten im Vergleich zu vorherigen Methoden (z. B. 1k vs. 120k Bildpaare).

4. Ergebnisse

Die Evaluation erfolgte auf den Datensätzen Matterport3D und Stanford2D3D sowie in Zero-Shot-Szenarien.

Quantitative Leistung:
- RePer-360 übertrifft den aktuellen SOTA (PanDA-L) signifikant.
- Bei fairer Vergleichsbedingungen (nur In-Domain-Daten, kein großes Vor-Training) erreicht das Modell Verbesserungen von ca. 12–34 % in Abs Rel und 17–22 % in RMSE.
- Selbst mit nur 1 % der Trainingsdaten von PanDA-L wird die Leistung von PanDA-L übertroffen.
Qualitative Ergebnisse:
- Das Modell behält geometrische Strukturen und feine Details besser bei, insbesondere unter starken Verzerrungen.
- Im Gegensatz zu PanDA-L, das Texturen oft fälschlicherweise als Tiefenvariationen interpretiert, zeigt RePer-360 kohärentere Tiefenkarten.
Zero-Shot Generalisierung:
- Trainiert nur auf synthetischen Daten (Structured3D, Deep360), zeigt das Modell eine überlegene Generalisierung auf reale, unlabeled Umgebungen (SUN360) im Vergleich zu Modellen, die mit viel mehr realen Daten trainiert wurden.
Analyse des Feature-Drifts:
- Visualisierungen zeigen, dass RePer-360 eine kontrollierte, glatte Evolution der Merkmale beibehält, während andere Methoden (wie Cross-Attention) zu instabilen Drifts führen.

5. Bedeutung und Fazit

RePer-360 demonstriert, dass die Anpassung von visuellen Foundation-Modellen an geometrisch inkonsistente Domänen (wie 360°-Bilder) nicht durch das vollständige Überschreiben von Priors oder durch rechenintensive Fusion erfolgen muss. Stattdessen ist eine gezielte, parametrische Modulation (Self-Modulation) ein vielversprechenderer Ansatz.

Die Arbeit liefert einen wichtigen Baustein für die effiziente Nutzung großer, vorab trainierter Modelle in spezialisierten Anwendungen (VR, autonomes Fahren), da sie zeigt, dass mit sehr wenig domänenspezifischen Daten und einer intelligenten Architektur hohe Genauigkeit erreicht werden kann, ohne die generischen Fähigkeiten des Basismodells zu verlieren. Der Code wird nach Annahme veröffentlicht.

RePer-360: Releasing Perspective Priors for 360∘^\circ∘ Depth Estimation via Self-Modulation

Das große Problem: Der Fischauge-Effekt

Die Lösung: RePer-360 (Der „Korrektur-Filter")

1. Nicht neu lernen, sondern anpassen (Die „Brille")

2. Der „Selbst-Modulator" (Der Dirigent)

3. Der „Würfel-Check" (Die Sicherheitskontrolle)

Warum ist das so genial?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: RePer-360

A. Geometry-Aligned Guidance (GAG)

B. Self-Conditioned AdaLN-Zero (SCAdaLN-Zero)

C. E2C Consistency Loss (ECCLoss)

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation