Any to Full: Prompting Depth Anything for Depth Completion in One Stage

Il paper presenta Any2Full, un framework innovativo a stadio singolo che adatta un modello di stima della profondità monoculare preaddestrato tramite un codificatore di prompt consapevole della scala per ottenere una completazione della profondità robusta ed efficiente, superando i metodi esistenti in termini di accuratezza e velocità.

Zhiyuan Zhou, Ruofeng Liu, Taichi Liu, Weijian Zuo, Shanshan Wang, Zhiqing Hong, Desheng Zhang

Pubblicato 2026-03-09
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una fotografia in bianco e nero (la tua immagine RGB) e una mappa del tesoro che però è quasi completamente cancellata, con solo qualche punto sparso di inchiostro (la tua "profondità" o depth incompleta). Il tuo obiettivo è ricostruire l'intera mappa del tesoro, rendendola densa e precisa, per poter navigare in sicurezza.

Fino a oggi, i robot e le macchine usavano due metodi principali per fare questo, ma avevano dei grossi difetti:

  1. Il metodo "Copia e Incolla" (RGB-D Fusion): Imparavano a memoria come appare il mondo solo guardando i dati di addestramento. Se cambiavi il luogo (es. da un interno luminoso a un esterno buio) o il tipo di mappa (es. buchi diversi), si confondevano. Era come se un cuoco sapesse fare solo la pasta se usava il pomodoro di una specifica marca, ma fallisse con un pomodoro diverso.
  2. Il metodo "Due Passi" (Two-Stage): Prima facevano una stima approssimativa e poi provavano a correggerla. Il problema? La prima stima era spesso storta o distorta, e la correzione successiva non riusciva mai a sistemare tutto perfettamente, lasciando artefatti strani (come se avessi ritoccato una foto e poi avessi cercato di cancellare le macchie, ma rimanevano ancora visibili).

La Soluzione: Any2Full (Da "Qualsiasi" a "Completo")

Gli autori di questo paper hanno inventato Any2Full, un nuovo approccio che funziona come un magico correttore di bozze che non deve mai ricominciare da capo.

Ecco come funziona, usando un'analogia:

1. Il "Genio Geometrico" (Il Modello MDE)

Immagina di avere un architetto esperto (chiamato MDE o Monocular Depth Estimation) che ha studiato milioni di foto. Questo architetto non ha mai visto un righello, ma sa perfettamente come sono fatti gli oggetti: sa che una sedia è solida, che un muro è piatto e che le persone hanno una certa altezza. Sa la "geometria" del mondo. Tuttavia, non sa esattamente quanto sono lontani gli oggetti in metri (manca la scala).

2. Il "Prompt di Scala" (Lo Sticker Magico)

Il problema è che l'architetto non sa quanto è grande la stanza. Qui entra in gioco Any2Full.
Invece di costringere l'architetto a ridisegnare tutto da zero (come facevano i vecchi metodi), Any2Full prende i pochi punti di profondità che hai (i tuoi dati sparsi) e li trasforma in un adesivo magico (chiamato Scale Prompt).

  • L'adesivo dice: "Ehi Architetto, guarda qui: questo punto è a 2 metri, quello a 5. Usa la tua conoscenza geometrica per riempire il resto, ma assicurati che le distanze siano coerenti con questi punti!"

3. Il "Codice di Trasmissione" (Scale-Aware Prompt Encoder)

Come fa Any2Full a creare questo adesivo perfetto anche se i tuoi punti sono sparsi in modo strano (alcuni buchi enormi, altri punti casuali)?
Usa un sistema intelligente chiamato Scale-Aware Prompt Encoder.

  • Immagina di avere un puzzle: Se hai solo 5 pezzi sparsi, è difficile capire l'immagine.
  • Il sistema di Any2Full: Prende quei 5 pezzi, guarda come si collegano alla "geometria" che l'architetto già conosce (le ombre, le linee degli edifici nella foto) e crea un ponte invisibile. Trasforma quei pochi punti sparsi in un messaggio chiaro e uniforme che dice all'architetto: "La scala è questa, ora disegna tutto il resto mantenendo questa coerenza".

Perché è rivoluzionario?

  1. È "One-Stage" (Un solo passo): Non fa prima una bozza brutta e poi la corregge. Fa tutto in un colpo solo, direttamente dal dato sparso alla mappa perfetta. È come se l'architetto disegnasse la mappa finale istantaneamente appena riceve l'adesivo, senza bozze intermedie.
  2. È "Pattern-Agnostic" (Indifferente ai buchi): Non importa se i tuoi dati mancanti sono buchi grandi, linee sottili o punti casuali. Il sistema è così intelligente da adattarsi a qualsiasi "forma" di mancanza, perché si affida alla geometria dell'architetto e non cerca di imparare a memoria i buchi.
  3. È velocissimo: Poiché non fa calcoli inutili o correzioni successive, è molto più veloce dei metodi precedenti (fino a 1,4 volte più veloce, e con versioni piccole addirittura 1000 volte più veloci!).

L'Applicazione Reale: Il Magazzino Robotico

Gli autori hanno testato questo sistema in un magazzino reale pieno di pacchi neri.

  • Il problema: Le telecamere dei robot (ToF) non vedono i pacchi neri perché assorbono la luce. Per il robot, i pacchi neri sono "buchi neri" invisibili. Il robot non sa dove afferrarli e spesso li rompe o li lascia cadere.
  • La soluzione Any2Full: Il robot guarda il pacco nero, vede solo buchi, ma Any2Full usa la sua "intelligenza geometrica" per immaginare la forma completa del pacco nero basandosi sui pochi punti che riesce a catturare e sulla forma tipica di un pacco.
  • Risultato: Il tasso di successo nell'afferrare i pacchi neri è passato dal 28% al 91,6%. Il robot ora "vede" l'invisibile.

In sintesi

Any2Full è come dare a un robot un occhio che non solo vede, ma immagina la forma completa degli oggetti anche quando sono parzialmente nascosti o mal misurati. Non impara a memoria i buchi, ma impara a usare la logica della geometria per colmarli in un solo istante, rendendo i robot più sicuri, veloci e capaci di lavorare in ambienti reali e difficili.