ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

Die Arbeit stellt ScaleDepth vor, eine neuartige Methode zur monokularen metrischen Tiefenschätzung, die durch die Zerlegung in Szenenskala und relative Tiefe sowie die Nutzung semantischer Informationen eine robuste Generalisierung über verschiedene Innen- und Außenszenarien hinweg ohne Nachjustierung ermöglicht.

Ruijie Zhu, Chuxin Wang, Ziyang Song, Li Liu, Tianzhu Zhang, Yongdong Zhang

Veröffentlicht 2026-02-25
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie weit ist das weg?

Stell dir vor, du hältst ein Foto in der Hand. Auf dem Bild siehst du einen Baum und ein Haus. Aber wie weit ist das Haus wirklich entfernt? Ist es nur 5 Meter weg oder 500 Meter?

Das ist das Problem der Tiefenschätzung (Depth Estimation). Wenn wir nur ein einziges Bild haben (keine 3D-Brille, keine zwei Kameras wie bei unseren Augen), ist es für Computer extrem schwer, die echte Entfernung zu erraten. Es ist wie ein Rätsel ohne alle Hinweise.

Bisherige Computer-Modelle hatten zwei große Probleme:

  1. Sie waren zu starr: Ein Modell, das in einem kleinen Wohnzimmer trainiert wurde, wusste oft nicht, wie es ein riesiges Feld auf einem anderen Foto schätzen sollte. Es verwechselte die Größenordnung.
  2. Sie brauchten viele Hinweise: Oft mussten die Entwickler dem Computer sagen: „Achtung, das ist ein Innenraum, die Dinge sind maximal 10 Meter weg" oder „Das ist draußen, alles ist weit weg". Das ist unpraktisch.

Die Lösung: ScaleDepth (Die „Maßstab-Methode")

Die Forscher von ScaleDepth haben eine clevere Idee gehabt. Sie haben das Problem in zwei einfache Schritte zerlegt, anstatt alles auf einmal zu lösen. Stell dir vor, du möchtest die Größe eines unbekannten Objekts messen. Du machst zwei Dinge:

  1. Schritt 1: Wie groß ist das Bild insgesamt? (Der Maßstab)
  2. Schritt 2: Wo steht was im Verhältnis zueinander? (Die relative Tiefe)

Analogie 1: Der Fotograf und der Maßstab

Stell dir vor, du fotografierst eine Gruppe von Menschen.

  • Die relative Tiefe (Schritt 2): Du siehst sofort, dass Person A vor Person B steht und Person C hinter Person B. Das ist einfach zu erkennen, egal ob die Gruppe 1 Meter oder 100 Meter von dir entfernt ist. Das ist wie eine Skizze, die nur die Reihenfolge zeigt.
  • Der Maßstab (Schritt 1): Aber wie weit ist die Gruppe wirklich weg? Wenn du weißt, dass die Person in der Mitte ein normales Auto ist (etwa 4,5 Meter lang), kannst du berechnen: „Ah, das Foto ist so weit weg, dass das Auto nur so groß aussieht."

ScaleDepth macht genau das:

  • Ein Teil des Systems (das SASP-Modul) schaut sich das Bild an und fragt: „Ist das ein kleines Zimmer oder eine riesige Landschaft?" Es nutzt dabei nicht nur die Form der Objekte, sondern auch deren Bedeutung (Semantik). Es weiß zum Beispiel: „Das ist eine Küche, also ist der Raum wahrscheinlich klein." oder „Das ist ein Wald, also ist es weit."
  • Der andere Teil (das ARDE-Modul) kümmert sich nur um die Anordnung: „Dieser Ast ist näher als der Baumstamm."

Am Ende werden diese beiden Informationen multipliziert: Relative Tiefe × Maßstab = Echte Entfernung.

Analogie 2: Der flexible Gummiregler

Frühere Modelle waren wie ein festes Lineal. Wenn du versuchst, mit einem 30-cm-Lineal die Länge eines Fußballfeldes zu messen, funktioniert das nicht gut. Du musst das Lineal immer wieder neu kalibrieren.

ScaleDepth ist wie ein Gummiregler.

  • Er passt sich automatisch an. Ist das Bild ein kleines Badezimmer? Der Gummiregler zieht sich zusammen (kleiner Maßstab).
  • Ist das Bild eine Autobahn? Der Gummiregler dehnt sich aus (großer Maßstab).
  • Der Computer muss nicht mehr manuell eingestellt werden. Er „fühlt" einfach, wie groß die Welt auf dem Foto ist.

Was macht ScaleDepth besonders?

  1. Ein Modell für alles: Früher brauchte man ein Modell für drinnen und ein anderes für draußen. ScaleDepth ist wie ein Schweizer Taschenmesser, das sowohl für den kleinen Tisch als auch für den weiten Horizont funktioniert.
  2. Kein Nachjustieren nötig: Du kannst das Modell auf ein Foto von einem fremden Ort werfen (z. B. ein unbekanntes Museum oder eine neue Stadt), und es funktioniert sofort, ohne dass man es neu trainieren muss. Das nennt man „Zero-Shot"-Fähigkeit.
  3. Es versteht die Welt: Das System nutzt eine riesige Datenbank von Texten und Bildern (CLIP), um zu verstehen, was es sieht. Wenn es ein „Schlafzimmer" erkennt, weiß es automatisch, dass die Wände nicht 100 Meter entfernt sein können.

Das Ergebnis

Dank dieser Aufteilung in „Maßstab finden" und „Anordnung erkennen" kann ScaleDepth:

  • In Innenräumen (wie Küchen oder Büros) präzise Entfernungen messen.
  • Im Freien (Autos, Berge, Städte) genau arbeiten.
  • Sogar in Situationen, die es noch nie gesehen hat, erstaunlich gut abschätzen, wie weit Dinge voneinander entfernt sind.

Zusammenfassend: ScaleDepth hat das komplexe Rätsel der Tiefenwahrnehmung gelöst, indem es aufhört, alles auf einmal zu berechnen, und stattdessen erst den „Maßstab der Welt" bestimmt und dann die Positionen der Dinge darin einordnet. Es ist wie ein kluger Fotograf, der sofort weiß, ob er ein Makro-Objektiv oder ein Teleobjektiv braucht, nur indem er auf das Bild schaut.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →