ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie weit ist das weg?

Stell dir vor, du hältst ein Foto in der Hand. Auf dem Bild siehst du einen Baum und ein Haus. Aber wie weit ist das Haus wirklich entfernt? Ist es nur 5 Meter weg oder 500 Meter?

Das ist das Problem der Tiefenschätzung (Depth Estimation). Wenn wir nur ein einziges Bild haben (keine 3D-Brille, keine zwei Kameras wie bei unseren Augen), ist es für Computer extrem schwer, die echte Entfernung zu erraten. Es ist wie ein Rätsel ohne alle Hinweise.

Bisherige Computer-Modelle hatten zwei große Probleme:

Sie waren zu starr: Ein Modell, das in einem kleinen Wohnzimmer trainiert wurde, wusste oft nicht, wie es ein riesiges Feld auf einem anderen Foto schätzen sollte. Es verwechselte die Größenordnung.
Sie brauchten viele Hinweise: Oft mussten die Entwickler dem Computer sagen: „Achtung, das ist ein Innenraum, die Dinge sind maximal 10 Meter weg" oder „Das ist draußen, alles ist weit weg". Das ist unpraktisch.

Die Lösung: ScaleDepth (Die „Maßstab-Methode")

Die Forscher von ScaleDepth haben eine clevere Idee gehabt. Sie haben das Problem in zwei einfache Schritte zerlegt, anstatt alles auf einmal zu lösen. Stell dir vor, du möchtest die Größe eines unbekannten Objekts messen. Du machst zwei Dinge:

Schritt 1: Wie groß ist das Bild insgesamt? (Der Maßstab)
Schritt 2: Wo steht was im Verhältnis zueinander? (Die relative Tiefe)

Analogie 1: Der Fotograf und der Maßstab

Stell dir vor, du fotografierst eine Gruppe von Menschen.

Die relative Tiefe (Schritt 2): Du siehst sofort, dass Person A vor Person B steht und Person C hinter Person B. Das ist einfach zu erkennen, egal ob die Gruppe 1 Meter oder 100 Meter von dir entfernt ist. Das ist wie eine Skizze, die nur die Reihenfolge zeigt.
Der Maßstab (Schritt 1): Aber wie weit ist die Gruppe wirklich weg? Wenn du weißt, dass die Person in der Mitte ein normales Auto ist (etwa 4,5 Meter lang), kannst du berechnen: „Ah, das Foto ist so weit weg, dass das Auto nur so groß aussieht."

ScaleDepth macht genau das:

Ein Teil des Systems (das SASP-Modul) schaut sich das Bild an und fragt: „Ist das ein kleines Zimmer oder eine riesige Landschaft?" Es nutzt dabei nicht nur die Form der Objekte, sondern auch deren Bedeutung (Semantik). Es weiß zum Beispiel: „Das ist eine Küche, also ist der Raum wahrscheinlich klein." oder „Das ist ein Wald, also ist es weit."
Der andere Teil (das ARDE-Modul) kümmert sich nur um die Anordnung: „Dieser Ast ist näher als der Baumstamm."

Am Ende werden diese beiden Informationen multipliziert: Relative Tiefe × Maßstab = Echte Entfernung.

Analogie 2: Der flexible Gummiregler

Frühere Modelle waren wie ein festes Lineal. Wenn du versuchst, mit einem 30-cm-Lineal die Länge eines Fußballfeldes zu messen, funktioniert das nicht gut. Du musst das Lineal immer wieder neu kalibrieren.

ScaleDepth ist wie ein Gummiregler.

Er passt sich automatisch an. Ist das Bild ein kleines Badezimmer? Der Gummiregler zieht sich zusammen (kleiner Maßstab).
Ist das Bild eine Autobahn? Der Gummiregler dehnt sich aus (großer Maßstab).
Der Computer muss nicht mehr manuell eingestellt werden. Er „fühlt" einfach, wie groß die Welt auf dem Foto ist.

Was macht ScaleDepth besonders?

Ein Modell für alles: Früher brauchte man ein Modell für drinnen und ein anderes für draußen. ScaleDepth ist wie ein Schweizer Taschenmesser, das sowohl für den kleinen Tisch als auch für den weiten Horizont funktioniert.
Kein Nachjustieren nötig: Du kannst das Modell auf ein Foto von einem fremden Ort werfen (z. B. ein unbekanntes Museum oder eine neue Stadt), und es funktioniert sofort, ohne dass man es neu trainieren muss. Das nennt man „Zero-Shot"-Fähigkeit.
Es versteht die Welt: Das System nutzt eine riesige Datenbank von Texten und Bildern (CLIP), um zu verstehen, was es sieht. Wenn es ein „Schlafzimmer" erkennt, weiß es automatisch, dass die Wände nicht 100 Meter entfernt sein können.

Das Ergebnis

Dank dieser Aufteilung in „Maßstab finden" und „Anordnung erkennen" kann ScaleDepth:

In Innenräumen (wie Küchen oder Büros) präzise Entfernungen messen.
Im Freien (Autos, Berge, Städte) genau arbeiten.
Sogar in Situationen, die es noch nie gesehen hat, erstaunlich gut abschätzen, wie weit Dinge voneinander entfernt sind.

Zusammenfassend: ScaleDepth hat das komplexe Rätsel der Tiefenwahrnehmung gelöst, indem es aufhört, alles auf einmal zu berechnen, und stattdessen erst den „Maßstab der Welt" bestimmt und dann die Positionen der Dinge darin einordnet. Es ist wie ein kluger Fotograf, der sofort weiß, ob er ein Makro-Objektiv oder ein Teleobjektiv braucht, nur indem er auf das Bild schaut.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Schätzung der Tiefe aus einem einzelnen Bild (Monocular Depth Estimation) ist eine fundamentale, aber schwierige Aufgabe im Bereich des 3D-Sehens. Während Methoden zur relativen Tiefenschätzung (Relative Depth Estimation, RDE) die räumliche Anordnung von Objekten unabhängig von der Skalierung bestimmen können, fehlt ihnen die physikalische Bedeutung für Anwendungen wie autonomes Fahren oder Robotik.

Metrische Tiefenschätzung (Metric Depth Estimation, MDE) zielt darauf ab, absolute Entfernungen in Metern zu liefern. Bestehende MDE-Methoden stoßen jedoch auf erhebliche Probleme:

Skalenvarianz: Modelle, die auf spezifischen Datensätzen (z. B. nur Innenräumen oder nur Außenbereichen) trainiert wurden, generalisieren schlecht auf Szenen mit stark unterschiedlichen Tiefenbereichen. Ein Modell, das für einen kleinen Raum trainiert wurde, scheitert oft an der Skalierung für eine weite Landschaft.
Fehlende Einheitlichkeit: Bisherige Ansätze erfordern oft separate Vorhersageköpfe für Innen- und Außenbereiche oder setzen feste Tiefenbereiche voraus, was die Anwendung in unbeschränkten Szenarien erschwert.
Skalenambiguität: Die meisten Methoden modellieren die Szenenskala nicht explizit, was zu Fehlern bei der Vorhersage führt, wenn die Szene eine andere Größenordnung hat als die Trainingsdaten.

2. Methodik: ScaleDepth

Die Autoren schlagen ScaleDepth vor, eine neue Methode, die die metrische Tiefenschätzung in zwei entkoppelte Aufgaben zerlegt: Skalen-Vorhersage (Scale Prediction) und relative Tiefenschätzung (Relative Depth Estimation). Dies ermöglicht ein einheitliches Framework für Innen- und Außenszenen ohne manuelle Festlegung von Tiefenbereichen.

Die Architektur besteht aus zwei Hauptmodulen:

A. Semantic-Aware Scale Prediction (SASP)

Dieses Modul ist dafür verantwortlich, den globalen Skalierungsfaktor der Szene vorherzusagen.

Ansatz: Anstatt nur auf Bildstrukturen zu vertrauen, nutzt SASP semantische Informationen.
Mechanismus: Es werden „Scale Queries" (Skalen-Abfragen) verwendet, die mit den Bildmerkmalen interagieren. Um semantische Einschränkungen zu setzen, wird ein eingefrorener CLIP-Text-Encoder genutzt.
Text-Bild-Ähnlichkeit: Manuelle Text-Prompts (z. B. „a photo of a [Klassifizierung]") werden in Text-Embeddings umgewandelt. Die Ähnlichkeit zwischen den Scale Queries und diesen Text-Embeddings wird berechnet. Dies zwingt das Modell, globale semantische Merkmale zu lernen, die mit der Szenenkategorie übereinstimmen, und ermöglicht so eine präzise Skalenvorhersage auch für unbekannte Kategorien.
Ergebnis: Ein einzelner Skalierungsfaktor $S$ wird für das gesamte Bild vorhergesagt.

B. Adaptive Relative Depth Estimation (ARDE)

Dieses Modul schätzt die relative Tiefenverteilung innerhalb eines normalisierten Raums (0 bis 1).

Diskretisierung: Anstatt eine kontinuierliche Regression durchzuführen, wird der Tiefenraum in „Bins" (Klassen) unterteilt.
Bin Queries: Eine Reihe von „Bin Queries" interagiert mit den Bildmerkmalen, um die Wahrscheinlichkeit zu berechnen, dass ein Pixel zu einem bestimmten Tiefen-Bin gehört.
Mask Attention: Ein entscheidender Innovationsschritt ist die Generierung von Attention-Masken. Basierend auf der Ähnlichkeit zwischen Bin-Features und Bildmerkmalen werden Masken erstellt, die dem Modell erlauben, sich adaptiv auf tiefenrelevante Regionen im Bild zu konzentrieren. Dies verbessert die lokale Strukturwiedergewinnung.
Ergebnis: Eine relative Tiefenkarte $R$ im Bereich [0, 1], die skaleninvariant ist.

C. Kombination

Die finale metrische Tiefenkarte $M$ wird durch einfache Multiplikation berechnet:
$M = S \times R$
Dadurch wird die komplexe Aufgabe der absoluten Tiefenschätzung in eine einfache Skalierung der relativen Tiefe zerlegt.

3. Hauptbeiträge

Einheitliches Framework: ScaleDepth ist das erste Modell, das Innen- und Außenszenen in einem einzigen Framework ohne separate Köpfe oder manuelle Tiefenbereichs-Einstellungen behandelt.
Entkopplung von Skala und relativer Tiefe: Durch die explizite Modellierung der Szenenskala (via SASP) und der relativen Verteilung (via ARDE) werden die Generalisierungsfähigkeit und die Genauigkeit signifikant verbessert.
Semantische Skalenvorhersage: Die Nutzung von CLIP-Text-Embeddings zur Führung der Skalenvorhersage ermöglicht es dem Modell, semantische Kontexte zu nutzen, ohne auf manuelle Szenenlabels während der Inferenz angewiesen zu sein.
Adaptive Maskierung: Die Einführung von Mask Attention im ARDE-Modul erlaubt eine effiziente Aggregation von Merkmalen in tiefenrelevanten Regionen.

4. Ergebnisse

Die Methode wurde umfassend auf verschiedenen Benchmarks evaluiert:

Indoor (NYU-Depth V2): ScaleDepth-N erreicht State-of-the-Art (SOTA) Ergebnisse und übertrifft große Modelle wie VPD (872M Parameter) trotz geringerer Parameterzahl (216M) deutlich.
Outdoor (KITTI): Auf dem KITTI-Datensatz (0-80m) erzielt ScaleDepth-K die besten Ergebnisse, obwohl keine Szenenlabels und keine festen Tiefenbereiche verwendet wurden.
Unbeschränkte Szenen (Unconstrained): Bei gleichzeitiger Schulung auf NYU und KITTI (ScaleDepth-NK) übertrifft das Modell den bisherigen SOTA-Vertreter ZoeDepth um 23,1% in der mittleren relativen Verbesserung (mRI) des ARel-Fehlers.
Zero-Shot Generalisierung: Das Modell wurde auf acht unsichtbare Datensätze (z. B. SUN RGB-D, Virtual KITTI 2) getestet, ohne Fine-Tuning. Es zeigt eine überlegene Generalisierungsfähigkeit im Vergleich zu anderen Methoden, selbst gegen Modelle, die auf zusätzlichen großen Datensätzen vortrainiert wurden.
Effizienz: ScaleDepth-NK hat weniger Parameter als vergleichbare SOTA-Modelle (z. B. ZoeDepth-X-NK) und erreicht dennoch bessere oder vergleichbare Ergebnisse.

5. Bedeutung und Ausblick

ScaleDepth adressiert ein fundamentales Problem der monokularen Tiefenschätzung: die Unfähigkeit, Skalenunterschiede zwischen verschiedenen Szenentypen zu überbrücken.

Praktische Relevanz: Da das Modell keine manuelle Konfiguration von Tiefenbereichen benötigt, ist es ideal für reale Anwendungen wie Robotik, autonomes Fahren und AR/VR geeignet, wo die Umgebung dynamisch und unbekannt ist.
Architektonischer Fortschritt: Die Zerlegung der Aufgabe in Skala und relative Tiefe bietet einen neuen Paradigmenwechsel, der die Robustheit von Deep-Learning-Modellen in unbeschränkten Umgebungen erhöht.
Zukünftige Arbeit: Die Autoren sehen Potenzial darin, ein universelles MDE-Framework zu entwickeln, das auch für völlig neue Objektkategorien (Open-Vocabulary) ohne Nachtraining funktioniert, wobei die aktuellen Grenzen bei völlig unbekannten Szenentypen (z. B. Paläste oder Berge, die im Training nie vorkamen) noch bestehen.

Zusammenfassend stellt ScaleDepth einen bedeutenden Schritt hin zu robusten, universell einsetzbaren metrischen Tiefenschätzer-Systemen dar, die die Lücke zwischen relativer und absoluter Tiefenwahrnehmung schließen.