Vanishing Depth: Training Generalized Depth Adapters with… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Paul Koch, Jörg Krüger

Gepubliceerd 2026-06-15

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Paul Koch, Jörg Krüger

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een zeer slim, hooggetraind robotoog hebt (een "pre-trained RGB encoder") dat uitblinkt in het herkennen van objecten, kleuren en vormen in een 2D-foto. Het weet hoe een "stoel" eruitziet, maar het heeft geen idee hoe ver die stoel weg is. Het ziet een platte wereld.

Om een robot daadwerkelijk dingen te laten doen—zoals een kopje oppakken of door een kamer navigeren—moet hij diepte begrijpen (hoe ver dingen in de 3D-ruimte weg zijn). Normaal gesproken moet je om een robot deze vaardigheid te geven, zijn hele brein vanaf nul opnieuw trainen, wat traag en duur is, en vaak de slimme dingen die hij al wist over vormen en kleuren verpest.

Dit artikel introduceert een slimme "plug-in" oplossing genaamd Vanishing Depth en Sinusoidal Depth Preprocessing. Hier is hoe het werkt, met behulp van eenvoudige analogieën:

1. De "Depth Adapter" (De Universele Vertaler)

Beschouw het bestaande brein van de robot als een meesterkok die geweldige 2D-foto's van eten kan bereiden. De auteurs hebben een kleine, afneembare adapter (een "Depth Adapter") gebouwd die in de keuken van de chef past.

Wat het doet: Het neemt de 2D-kennis van de chef en mengt dit met nieuwe 3D-diepte-informatie.
De Magie: Het dwingt de chef niet om te vergeten hoe hij moet koken. In plaats daarvan leert het de chef om ook afstand te begrijpen. Het originele brein blijft precies zoals het was (onbedorven), maar nu kan het de wereld in 3D zien.
Het Voordeel: Je hoeft de hele chef niet opnieuw te trainen. Je plugt gewoon de adapter in, en de robot is klaar om aan nieuwe taken te werken, zoals segmentatie (het uitknippen van objecten), het schatten van waar objecten zich bevinden (pose estimation), of het invullen van ontbrekende dieptegegevens.

2. De "Vanishing Depth" Training (Het Blinddoekspel)

Hoe leer je deze adapter diepte te begrijpen zonder dat hij simpelweg specifieke plaatjes uit het hoofd leert? De auteurs gebruikten een spel genaamd "Vanishing Depth."

Stel je voor dat je iemand leert om een bergketen te herkennen. In plaats van een perfecte foto te laten zien, doe je het volgende:

Verberg delen van de foto: Je bedekt 50% van de berg met een blinddoek (willekeurige ruis).
Verander de schaal: Je zoomt willekeurig in en uit, zodat de berg er enorm of juist heel klein uitziet.
Verschuif de positie: Je beweegt de berg naar links of rechts.
Het Doel: De student (de AI) moet naar de zichtbare delen en de vorm van de berg kijken om te raden hoe de verborgen delen eruitzien.

Door dit te doen met duizenden verschillende dieptekaarten, leert de AI de ware structuur van diepte te begrijpen, in plaats van alleen specifieke plaatjes te memoriseren. De AI leert om te gaan met ontbrekende gegevens, ruisende sensoren en verschillende afstanden, wat het ongelooflijk robuust maakt.

3. "Sinusoidal Depth Preprocessing" (De Liniaal met Oneindig Veel Streepjes)

Standaard manieren om AI over diepte te leren, zijn als een liniaal die alleen markeringen heeft voor 1 meter, 2 meter en 3 meter. Als je iets laat zien op 1,5 meter, raakt het in de war.

De auteurs hebben een nieuwe manier uitgevonden om diepte te meten, genaamd Sinusoidal Depth Preprocessing (SDP).

De Analogie: Stel je een liniaal voor die niet alleen rechte lijnen heeft, maar een vloeiend, golvend patroon (zoals een sinusgolf) dat zich steeds herhaalt.
Waarom het beter is: Dit golvende patroon stelt de AI in staat om diepte te begrijpen als een vloeiende, continue stroom in plaats van sprongen tussen vaste getallen. Het kan kleine verschillen (zoals 1,001 meter) en enorme verschillen (zoals 500 meter) met dezelfde gemak aan.
Het Resultaat: Dit maakt de AI veel nauwkeuriger en stabieler, vooral wanneer de dieptegegevens rommelig of schaars zijn (zoals een laserscanner die enkele punten mist).

Wat Hebben Ze Bewezen?

De auteurs hebben deze "adapter" getest op een breed scala aan taken, en deze presteerde beter dan bijna alles wat momenteel beschikbaar is, zonder dat er extra training (finetuning) nodig was voor die specifieke taken.

Segmentatie: Wanneer gevraagd werd om objecten in een kamer te identificeren en te omlijnen, behaalde hun systeem een top score (56,05 mIoU op de SUN-RGBD dataset), waarmee het andere complexe, multimodale systemen versloeg.
Pose Estimation: Wanneer gevraagd werd om exact te bepalen hoe een object in de 3D-ruimte is gedraaid, presteerde hun systeem aanzienlijk beter dan eerdere methoden.
Robuustheid: Zelfs toen de dieptegegevens ruisig, ontbrekend of vervormd waren, bleef hun systeem goed werken, terwijl andere systemen vastliepen of foutieve antwoorden gaven.

De Kern van het Verhaal

Dit artikel presenteert een "universele diepte-plug-in". Het neemt een slimme, 2D-bewuste AI en upgrade deze direct naar een 3D-bewuste AI. Dit doen ze door de AI te leren diepte te begrijpen via een spel van "invullen van de lege plekken" (Vanishing Depth) en door een superprecieze, golvende meettool te gebruiken (Sinusoidal Preprocessing). Het resultaat is een visiesysteem voor robots dat nauwkeurig, robuust en direct klaar is om aan nieuwe taken te werken, zonder dat het vanaf nul opnieuw getraind hoeft te worden.

Technische Samenvatting: Vanishing Depth: Training Generalized Depth Adapters with Sinusoidal Depth Preprocessing for Pretrained RGB Encoders

Probleemstelling

Huidige state-of-the-art (SOTA) visuele fundamentmodellen, met name die gebaseerd op zelfgesuperviseerd leren (SSL) zoals DINOv2, blinken uit in het extraheren van gegeneraliseerde kenmerken uit RGB-beelden. Ze missen echter een inherent metrisch dieptebegrip, een capaciteit die cruciaal is voor downstream-taken die absolute 3D-positie-informatie vereisen, zoals robotica, pose-estimatie en dieptecompletie. Bestaande benaderingen om diepte te integreren vertrouwen vaak op:

Taakspecifieke finetuning: Wat de gegeneraliseerde kenmerken die tijdens de pretraining zijn geleerd, kan corrumperen.
Random initialisatie van diepte-encoders: Wat leidt tot een gebrek aan generaliseerbaarheid over verschillende datasets.
Multi-modale pretraining: Methoden zoals OmniVec of MultiMAE lijnen modaliteiten uit, maar falen vaak in het afdwingen van pixel-gewijze metrische diepteprecisie, omdat ze zich richten op algemene context voor classificatie of segmentatie.

Als gevolg hiervan is er een gat in de literatuur voor een gegeneraliseerde RGBD-encoder die metrische diepte kan integreren in een vooraf getrainde RGB-latente ruimte zonder dat taakspecifieke finetuning nodig is, terwijl deze robuust blijft tegen variaties in dieptedichtheid, -distributie en ruis.

Methodologie

De auteurs stellen een raamwerk voor bestaande uit twee primaire componenten: een Depth Adapter (DA) en Sinusoidal Depth Preprocessing (SDP), getraind via een Vanishing Depth-pipeline.

1. Depth Adapter (DA) Architectuur

Basis: De methode breidt bestaande vooraf getrainde RGB-encoders uit (bijv. ViT-B gebaseerd op DINOv2) door een parallelle diepte-encoder tak toe te voegen.
Fusie: Het maakt gebruik van een "Skip & Embed" (S&E) mechanisme om RGB- en dieptesignalen te fuseren op specifieke tussenliggende lagen (bijv. lagen 3, 6, 9, 12). Dit stelt de diepte-encoder in staat om de gegeneraliseerde semantische kenmerken van de bevroren RGB-encoder te benutten.
Trainingsstrategie: De vooraf getrainde RGB-encoder is bevroren om de gegeneraliseerde kenmerken te behouden. Alleen de depth adapter en de decoder heads worden getraind. Dit zorgt ervoor dat het model niet de robuuste RGB-representaties "verleert".
Decoder: Een lichtgewicht U-Net decoder met vier Feature Pyramid Network (FPN) heads voert multi-schaal decoding uit voor dichte metrische dieptevoorspelling.

2. Sinusoidal Depth Preprocessing (SDP)

Motivatie: Standaard dieftenormalisatie (bijv. schalen naar [0,1] of het gebruik van dispariteitskaarten) worstelt met variërende dieptedistributies, -densiteiten en verstoringen.
Mechanisme: SDP codeert continue dieptewaarden $d_j$ in een set sinusvormige kenmerken:
$SDP(d_j, 2i) = \sin(l/T^{2i/c}), \quad SDP(d_j, 2i+1) = \cos(l/T^{2i/c})$
waarbij $l = 2\pi(d_j / \max(d))$ .
Normalisatie: Het ondersteunt zowel Global Max Depth (GSDP) als Local Max Depth (LSDP). Voor LSDP wordt de maximale dieptewaarde gecodeerd in een vector en toegevoegd aan de CLS-token, waardoor het model metrische diepte dynamisch kan decoderen.
Voordeel: Deze aanpak biedt stabiele extractie van kenmerken binnen het bereik van [-1, 1], ongeacht de input-dieptedistributie of absolute schaal, in tegen tegenstelling tot klassieke positionele encodings die ontworpen zijn voor token-lokalisatie.

3. Vanishing Depth Trainingspipeline
Om ervoor te zorgen dat het model een dieptedichtheid- en distributie-invariante representatie leert, gebruikt de trainingspipeline een "vanishing depth" strategie geïnspireerd door inpainting:

Data Augmentatie: Dieptekaarten worden gemanipuleerd met behulp van Perlin-ruis en random resized noise om variërende percentages (1–99%) van diepixel te verwijderen.
Distributie-invariantie: Willekeurige offsets, scalars en herschalingen worden toegepast op dieptesamples om te voorkomen dat het model alleen vertrouwt op monoculaire dieptekenmerken uit RGB alleen.
Loss Functie: Een Multi-scale Balanced Scale-Invariant (SI) Loss wordt gebruikt. Deze balanceert de reconstructie van bestaande dieptepixels met de voorspelling van ontbrekende (gemaskeerde) dieptepixels, wat ervoor zorgt dat het model goed presteert op zowel dichte als ijle inputs.

Belangrijkste Bijdragen

Generaliseerde Depth Adapter: Een methode om vooraf getrainde RGB-encoders uit te breiden om met metrische diepte om te gaan zonder de basis-encoder te finetunen, wat "out-of-the-box" adaptatie naar diverse RGBD-taken mogelijk maakt.
Sinusoidal Depth Preprocessing (SDP): Een nieuwe preprocessing techniek die beter presteert dan standaard normalisatie bij het omgaan met diverse dieptedistributies, -densiteiten en ruisniveaus.
Vanishing Depth Training: Een self-supervised pipeline die de adapter traint om robuust te zijn tegen ontbrekende data en distributieverschuivingen door het simuleren van ijle en ruizige diepte-inputs tijdens de training.
Zero-Finetuning Adaptability: Het resulterende model kan worden toegepast op downstream-taken (segmentatie, pose-estimatie, dieptecompletie) met behulp van alleen de bevroren encoder en een lichtgewicht decoder head, waardoor de computationele kosten en risico's op overfitting van volledige finetuning worden vermeden.

Experimentele Resultaten

De auteurs hebben hun aanpak geëvalueerd via segmentatie, dieptecompletie en 6D object pose-estimatie op datasets waaronder SUN-RGBD, NYU-v2, KITTI, Void, YCBV, en anderen.

Segmentatie: De voorgestelde methode behaalde 56.05 mIoU op de SUN-RGBD dataset, waarmee zij de SOTA diepte-bewuste en multi-modale encoders (bijv. OmniSegmentor, DFormerV2) overtrof en de RGB-baseline (DINOv2) significant verbeterde. Het toonde ook effectiviteit op RGB-only datasets waar diepte via monoculaire estimatie werd gesynthetiseerd.
Dieptecompletie: Bij sparse dieptecompletie-taken (KITTI, Void) vertoonden de op SDP gebaseerde adapters een superieure precisie vergeleken met norm-gebaseerde diepte-encoding en andere SOTA-methoden, met name bij het verwerken van ijle inputs.
Pose-estimatie: In 6D object pose-estimatie (YCBV, HomeBrew, LM-O) verbeterden de diepte-adapters de prestaties van bevroren RGB-encoders aanzienlijk (bijv. DINOv2 + DA behaalde 84.1 AUC op YCBV versus 72.5 voor DINOv2 alleen). De methode presteerde beter dan multi-modale baselines zoals Omnivore en MultiMAE, die vaak verslechterden wanneer diepte werd geïntroduceerd.
Robuustheid: Ablatiestudies bevestigden dat SDP veerkrachtiger is tegen ruis en ijtheid dan standaard normalisatie. Terwijl normalisatie-gebaseerde methoden moeite hadden met willekeurige ruis en ontbrekende diepte, behield SDP zijn stabiliteit.

Betekenis en Claims

Het artikel beweert dat dit werk de kloof overbrugt tussen gegeneraliseerde fundamentmodellen en metrisch dieptebegrip. Door af te zien van taakspecifieke finetuning, biedt de methode een modulaire en efficiënte oplossing voor robotica en multi-agent systemen waar snelle adaptatie aan nieuwe omgevingen vereist is.

Generaliseerbaarheid: De aanpak is niet beperkt tot specifieke datasets; het generaliseert over variërende dieptedichtheden en -distributies.
Efficiëntie: Het maakt het mogelijk om grote, vooraf getrainde RGB-encoders te hergebruiken, wat de noodzaak vermindert om massieve multi-modale modellen vanaf nul te trainen.
Relevantie voor Robotica: De auteurs benadrukken het potentieel voor Vision-Language-Action (VLA) en robotbeleidsleren, waarbij vooraf getrainde encoders gunstig zijn maar vaak finetuning vereisen die leidt tot overfitting. Deze methode biedt een manier om dieptebewustzijn toe te voegen zonder de generaliserende capaciteiten van de basis-encoder in gevaar te brengen.

De auteurs merken bescheiden op dat zij VLA en beleidsleer-benchmarks hebben vermeden vanwege het gebrek aan gestandaardiseerde "out-of-the-box" vergelijkingsframeworks, maar dat de architectuur is ontworken om deze toepassingen in de toekomst te ondersteunen. Zij erkennen ook dat voor extreme dieptebereiken (bijv. >15m), herschaling of het aanpassen van de maximale diepteparameter noodzakelijk is, hoewel de frequentiedichtheid van SDP in dergelijke gevallen kan uitrekken.

Vanishing Depth: Training Generalized Depth Adapters with Sinusoidal Depth Preprocessing for Pretrained RGB Encoders