ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

Deze paper introduceert ScaleDepth, een nieuwe methode voor monocular dieptebepaling die metrische diepte decomposeert in een semantisch bewust schaalvoorspelling en adaptieve relatieve dieptebepaling, waardoor state-of-the-art prestaties worden bereikt voor zowel binnen- als buitenomgevingen zonder aanpassing van het model of het instellen van dieptebereiken.

Ruijie Zhu, Chuxin Wang, Ziyang Song, Li Liu, Tianzhu Zhang, Yongdong Zhang

Gepubliceerd 2026-02-25
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hoe een computer diepte ziet: De "ScaleDepth" uitdaging

Stel je voor dat je een foto van een kamer maakt. Op die foto zie je een vaas op een tafel en een raam in de achtergrond. Voor een mens is het makkelijk om te zien dat de vaas dichterbij is dan het raam. Maar voor een computer is dat een enorme puzzel. Een foto is immers plat (twee dimensies), terwijl de wereld eruitziet als een 3D-ruimte.

Dit is het probleem dat ScaleDepth probeert op te lossen. Het is een slimme nieuwe manier voor computers om de afstand tot objecten te berekenen op basis van één enkele foto.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Maatstaf" is zoek

Vroeger waren computers goed in het zeggen: "Deze vaas is dichter dan het raam." Dat noemen we relatieve diepte. Maar ze waren slecht in het zeggen: "De vaas staat precies 2 meter van de camera af." Dat noemen we metrische diepte (echte afstand).

Het probleem was dat computers vaak de "schaal" verwarren.

  • De Analogie: Stel je voor dat je een foto ziet van een speelgoedauto en een foto van een echte auto. Als je alleen naar de foto kijkt, weet de computer niet of hij naar een klein speelgoedautootje kijkt dat heel dichtbij staat, of naar een enorme vrachtwagen die heel ver weg staat.
  • Het probleem: Bestaande methoden waren vaak getraind op alleen binnenkanten (kleine kamers) of alleen buitenkanten (grote straten). Als je een model dat getraind was op binnenkanten op een buitenlandsje gooide, raakte het in paniek. Het dacht dat de hele wereld 10 keer kleiner was dan hij was.

2. De oplossing: Twee taken in plaats van één

De makers van ScaleDepth hebben een slimme truc bedacht: Splits de taak op. In plaats van dat de computer direct probeert te raden hoe ver alles af staat, laten ze hem twee dingen doen:

  1. De "Schaal" raden (Hoe groot is de wereld hier?)
  2. De "Relatie" raden (Wat staat waar ten opzichte van elkaar?)

Stel je voor dat je een landkaart tekent.

  • Eerst bepaal je de schaal van de kaart: "Is dit een kaart van een hele stad, of een kaart van een tuin?" (Dit is de Schaal).
  • Daarna teken je de wegen en gebouwen ten opzichte van elkaar: "Het huis staat links van de boom." (Dit is de Relatieve diepte).

Als je deze twee stappen combineert, krijg je een perfecte kaart, ongeacht of het een tuin of een stad is.

3. Hoe doet de computer dit? (De slimme onderdelen)

De paper beschrijft twee speciale "modules" (onderdelen) die dit doen:

De "Schaal-Voorspeller" (SASP)

Dit onderdeel kijkt naar de foto en vraagt zich af: "Wat voor soort plek is dit?"

  • De Analogie: Het is alsof de computer een foto ziet en denkt: "Oh, dit lijkt op een keuken." Of: "Dit is een buitenlandsje."
  • Maar het is slimmer dan dat. Het kijkt ook naar de structuur. Als er een tafel is met potten op, weet het dat potten op tafels meestal op een bepaalde hoogte staan.
  • Het gebruikt een slimme taalcomputer (CLIP) die weet hoe woorden (zoals "keuken" of "straat") eruitzien. Door te kijken naar de foto en te vergelijken met deze woorden, kan de computer de juiste "schaal" van de wereld voorspellen. Zie het als het instellen van de juiste vergrotingsfactor op een vergrootglas.

De "Relatie-Schatter" (ARDE)

Dit onderdeel kijkt naar de foto en zegt: "Oké, we weten nu de schaal. Nu gaan we kijken wie er dichter bij staat."

  • De Analogie: Stel je voor dat je een foto hebt met een rij mensen. Je weet niet hoe ver ze precies staan, maar je ziet wel dat de persoon links voor de persoon rechts staat.
  • Dit onderdeel verdeelt de diepte in "bakjes" (bins). Het zegt: "Deze pixel hoort in bakje 1 (dichtbij), die pixel in bakje 5 (ver weg)."
  • Het is heel flexibel. Het past zich aan aan de foto. Als de foto een lange gang toont, vult hij de bakjes anders dan als het een kleine badkamer is.

4. Het grote voordeel: Één model voor alles

Vroeger hadden je twee verschillende modellen nodig: één voor binnen en één voor buiten. Of je moest de instellingen handmatig aanpassen.

Met ScaleDepth heb je één universele robot die alles kan:

  • Hij kijkt naar een foto van een slaapkamer -> Hij schakelt in op "kleine schaal".
  • Hij kijkt naar een foto van een berg -> Hij schakelt in op "grote schaal".
  • Hij hoeft niet opnieuw getraind te worden en je hoeft geen instellingen te veranderen. Hij doet het allemaal automatisch.

Samenvatting in één zin

ScaleDepth is als een slimme fotograaf die eerst bepaalt of hij in een poppenhuis of in een stad staat (de schaal), en daarna precies tekent wie waar staat (de relatieve diepte), zodat hij voor elke foto de perfecte afstandsberekening maakt zonder te hoeven twijfelen.

Dit maakt het mogelijk voor robots, auto's en augmented reality-brillen om de wereld veel beter te begrijpen, of ze nu in een kleine kamer of op een open veld staan.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →