ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation

Each language version is independently generated for its own context, not a direct translation.

Hoe een computer diepte ziet: De "ScaleDepth" uitdaging

Stel je voor dat je een foto van een kamer maakt. Op die foto zie je een vaas op een tafel en een raam in de achtergrond. Voor een mens is het makkelijk om te zien dat de vaas dichterbij is dan het raam. Maar voor een computer is dat een enorme puzzel. Een foto is immers plat (twee dimensies), terwijl de wereld eruitziet als een 3D-ruimte.

Dit is het probleem dat ScaleDepth probeert op te lossen. Het is een slimme nieuwe manier voor computers om de afstand tot objecten te berekenen op basis van één enkele foto.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het oude probleem: De "Maatstaf" is zoek

Vroeger waren computers goed in het zeggen: "Deze vaas is dichter dan het raam." Dat noemen we relatieve diepte. Maar ze waren slecht in het zeggen: "De vaas staat precies 2 meter van de camera af." Dat noemen we metrische diepte (echte afstand).

Het probleem was dat computers vaak de "schaal" verwarren.

De Analogie: Stel je voor dat je een foto ziet van een speelgoedauto en een foto van een echte auto. Als je alleen naar de foto kijkt, weet de computer niet of hij naar een klein speelgoedautootje kijkt dat heel dichtbij staat, of naar een enorme vrachtwagen die heel ver weg staat.
Het probleem: Bestaande methoden waren vaak getraind op alleen binnenkanten (kleine kamers) of alleen buitenkanten (grote straten). Als je een model dat getraind was op binnenkanten op een buitenlandsje gooide, raakte het in paniek. Het dacht dat de hele wereld 10 keer kleiner was dan hij was.

2. De oplossing: Twee taken in plaats van één

De makers van ScaleDepth hebben een slimme truc bedacht: Splits de taak op. In plaats van dat de computer direct probeert te raden hoe ver alles af staat, laten ze hem twee dingen doen:

De "Schaal" raden (Hoe groot is de wereld hier?)
De "Relatie" raden (Wat staat waar ten opzichte van elkaar?)

Stel je voor dat je een landkaart tekent.

Eerst bepaal je de schaal van de kaart: "Is dit een kaart van een hele stad, of een kaart van een tuin?" (Dit is de Schaal).
Daarna teken je de wegen en gebouwen ten opzichte van elkaar: "Het huis staat links van de boom." (Dit is de Relatieve diepte).

Als je deze twee stappen combineert, krijg je een perfecte kaart, ongeacht of het een tuin of een stad is.

3. Hoe doet de computer dit? (De slimme onderdelen)

De paper beschrijft twee speciale "modules" (onderdelen) die dit doen:

De "Schaal-Voorspeller" (SASP)

Dit onderdeel kijkt naar de foto en vraagt zich af: "Wat voor soort plek is dit?"

De Analogie: Het is alsof de computer een foto ziet en denkt: "Oh, dit lijkt op een keuken." Of: "Dit is een buitenlandsje."
Maar het is slimmer dan dat. Het kijkt ook naar de structuur. Als er een tafel is met potten op, weet het dat potten op tafels meestal op een bepaalde hoogte staan.
Het gebruikt een slimme taalcomputer (CLIP) die weet hoe woorden (zoals "keuken" of "straat") eruitzien. Door te kijken naar de foto en te vergelijken met deze woorden, kan de computer de juiste "schaal" van de wereld voorspellen. Zie het als het instellen van de juiste vergrotingsfactor op een vergrootglas.

De "Relatie-Schatter" (ARDE)

Dit onderdeel kijkt naar de foto en zegt: "Oké, we weten nu de schaal. Nu gaan we kijken wie er dichter bij staat."

De Analogie: Stel je voor dat je een foto hebt met een rij mensen. Je weet niet hoe ver ze precies staan, maar je ziet wel dat de persoon links voor de persoon rechts staat.
Dit onderdeel verdeelt de diepte in "bakjes" (bins). Het zegt: "Deze pixel hoort in bakje 1 (dichtbij), die pixel in bakje 5 (ver weg)."
Het is heel flexibel. Het past zich aan aan de foto. Als de foto een lange gang toont, vult hij de bakjes anders dan als het een kleine badkamer is.

4. Het grote voordeel: Één model voor alles

Vroeger hadden je twee verschillende modellen nodig: één voor binnen en één voor buiten. Of je moest de instellingen handmatig aanpassen.

Met ScaleDepth heb je één universele robot die alles kan:

Hij kijkt naar een foto van een slaapkamer -> Hij schakelt in op "kleine schaal".
Hij kijkt naar een foto van een berg -> Hij schakelt in op "grote schaal".
Hij hoeft niet opnieuw getraind te worden en je hoeft geen instellingen te veranderen. Hij doet het allemaal automatisch.

Samenvatting in één zin

ScaleDepth is als een slimme fotograaf die eerst bepaalt of hij in een poppenhuis of in een stad staat (de schaal), en daarna precies tekent wie waar staat (de relatieve diepte), zodat hij voor elke foto de perfecte afstandsberekening maakt zonder te hoeven twijfelen.

Dit maakt het mogelijk voor robots, auto's en augmented reality-brillen om de wereld veel beter te begrijpen, of ze nu in een kleine kamer of op een open veld staan.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het schatten van diepte uit een enkele afbeelding (Monocular Depth Estimation) is een fundamentele maar uitdagende taak in de 3D-vision. Hoewel relatieve diepteschatting (RDE) goed presteert in het bepalen van de volgorde van objecten, mist deze vaak de fysieke schaal die nodig is voor praktische toepassingen zoals robotica en autonoom rijden.

Bestaande methoden voor metrische diepteschatting (MDE) hebben echter te kampen met twee belangrijke beperkingen:

Schaalvariatie: Bestaande modellen worden vaak getraind op specifieke datasets met vergelijkbare scènes (bijv. alleen binnen of alleen buiten). Ze worstelen om te generaliseren naar scènes met aanzienlijke verschillen in dieptebereik (bijv. een kleine kamer versus een open landschap).
Gebrek aan expliciete schaalmodellering: Veel methoden negeren de impact van de "scèneschaal" of vereisen aparte heads voor binnen- en buitenscènes, of ze vertrouwen op grote hoeveelheden trainingsdata en camera-parameters om schaalschuifproblemen op te lossen zonder de schaal expliciet te modelleren.

Methodologie: ScaleDepth

De auteurs stellen ScaleDepth voor, een nieuwe methode die metrische diepteschatting decomposeert in twee afzonderlijke maar gekoppelde taken: schaalvoorspelling en relatieve diepteschatting. Dit gebeurt binnen één unified framework.

De architectuur bestaat uit twee kernmodules:

1. Semantic-Aware Scale Prediction (SASP) Module

Deze module is verantwoordelijk voor het voorspellen van de globale schaal van de scène.

Concept: In plaats van alleen te vertrouwen op de scène-categorie, combineert deze module structurele en semantische informatie.
Implementatie:
- Er worden scale queries ( $Q_s$ ) gebruikt om globale structurele informatie uit de afbeelding te halen via een CLIP-afbeeldingencoder.
- Om semantische beperkingen op te leggen, worden tekstprompts (bijv. "een foto van een [klasse]") gegenereerd en verwerkt door een bevroren CLIP-tekstencoder.
- De module berekent de gelijkenis tussen de scale queries en de tekst-embeddings van de scène-categorieën. Dit zorgt ervoor dat de schaalvoorspelling semantisch onderbouwd is, zelfs voor onbekende categorieën, zonder dat de categorie expliciet als input nodig is tijdens de inferentie.
- Het resultaat is een schalingsfactor $S$ .

2. Adaptive Relative Depth Estimation (ARDE) Module

Deze module schat de relatieve diepteverdeling binnen een genormaliseerde ruimte (0-1).

Concept: Het model voorspelt niet direct de absolute diepte, maar de verdeling van diepte in "bins" (klassen) binnen een genormaliseerde ruimte.
Implementatie:
- Er worden bin queries ( $Q_b$ ) gebruikt om diepte-gerelateerde regio's in de afbeelding te aggregeren.
- Mask Attention: Een uniek kenmerk is het genereren van attention masks. Deze masks zorgen ervoor dat elke bin query zich richt op de specifieke beeldfeatures die relevant zijn voor die diepteclass, wat de lokale structuurherstel verbetert.
- Het model voorspelt de waarschijnlijkheid dat pixels tot bepaalde bins behoren. De relatieve dieptekaart $R$ wordt berekend door de bin-centers te wegen op basis van deze waarschijnlijkheden.
- Dit resulteert in een schaal-invariante relatieve dieptekaart.

Eindresultaat

De metrische dieptekaart ( $M$ ) wordt verkregen door de relatieve dieptekaart ( $R$ ) te vermenigvuldigen met de voorspelde schalingsfactor ( $S$ ):
$M = S \times R$

Kernbijdragen

Decompositie van MDE: Het introduceren van een framework dat metrische diepte splitst in schaalvoorspelling en relatieve diepte, waardoor het mogelijk wordt om binnen- en buitenscènes in één model te behandelen zonder vaste dieptebereiken.
SASP Module: Een innovatieve module die semantische informatie (via CLIP) en structurele informatie implicit combineert voor nauwkeurige schaalvoorspelling, wat generalisatie naar onbekende scènes mogelijk maakt.
ARDE Module: Een adaptieve module die relatieve diepte schat in een genormaliseerde ruimte met behulp van bin queries en mask attention, waardoor het model flexibel is voor verschillende diepteverdelingen.
Unificatie: Het vermogen om nauwkeurige metrische diepte te schatten voor zowel binnen- als buitenscènes zonder het model te moeten fine-tunen of het dieptebereik handmatig in te stellen.

Resultaten

ScaleDepth is uitgebreid getest op diverse benchmarks en presteert state-of-the-art (SOTA) in meerdere scenario's:

Binnen (NYU-Depth V2): Overtreft bestaande methoden (zoals VPD, AdaBins, NeWCRFs) met een kleiner aantal parameters (216M vs. 872M bij VPD).
Buiten (KITTI): Bereikt SOTA-prestaties op de Eigen-split van KITTI, zelfs zonder categorie-informatie en met beperkte dieptelabels.
Onbeperkte scènes (Unconstrained): Wanneer getraind op zowel NYU als KITTI, overtreft ScaleDepth-NK de huidige SOTA-methode ZoeDepth met 23,1% verbetering in ARel (Absolute Relative Error) op onbeperkte scènes.
Zero-shot Generalisatie: Het model toont uitstekende generalisatie op acht ongezette datasets (zowel binnen als buiten) zonder enige fine-tuning. Het presteert zelfs beter dan ZoeD-M12-NK (die getraind is op extra datasets) op de meeste ongezette datasets.
Efficiëntie: De methode is efficiënter dan veel concurrenten en vereist geen vooraf gedefinieerde dieptebereiken tijdens training of inferentie.

Betekenis en Impact

ScaleDepth biedt een paradigmaverschuiving in monocular depth estimation door het probleem van schaalvariatie expliciet aan te pakken in plaats van het te negeren of te omzeilen.

Universele Toepasbaarheid: Het maakt het mogelijk om één model te gebruiken voor uiteenlopende omgevingen (van kleine kamers tot uitgestrekte landschappen), wat cruciaal is voor robuuste autonome systemen.
Semantisch Bewustzijn: Door gebruik te maken van CLIP voor semantische supervisie, kan het model beter omgaan met scènes waar de schaal niet direct uit de geometrie af te leiden is.
Toekomstperspectief: De methode legt de basis voor "open-vocabulary" diepteschatting, waarbij modellen nauwkeurige metrische diepte kunnen schatten in volledig nieuwe en onbekende omgevingen zonder specifieke training voor die scenario's.

Samenvattend biedt ScaleDepth een robuust, efficiënt en generaliserend framework dat de kloof tussen relatieve en metrische diepteschatting dicht, met name in scenario's met grote schaalvariaties.