LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente robotico super intelligente, capace di vedere le foto e descrivere cosa c'è dentro con parole perfette. Oggi, questi robot (chiamati Modelli Vision-Language o VLM) sono bravissimi a dire: "Vedo un gatto rosso che dorme sul divano".

Ma c'è un problema: se vuoi che il robot interagisca con il mondo reale (ad esempio, afferrare quel gatto o evitare di urtarlo), non basta sapere cosa c'è. Serve sapere dove si trova esattamente nello spazio 3D: quanto è lontano? Quanto è grande? È inclinato?

Fino a oggi, far capire a questi robot la profondità e la forma 3D era come insegnare a un pianista a suonare il violino: servivano strumenti speciali e regole diverse. Il nuovo lavoro, LocateAnything3D, risolve questo problema in modo geniale e semplice.

Ecco come funziona, spiegato con delle metafore quotidiane:

1. Il Segreto: "La Catena dello Sguardo" (Chain-of-Sight)

Immagina di dover descrivere un oggetto in una stanza buia a qualcuno che non può vedere. Se inizi subito a dire "è alto 1 metro e mezzo e ruotato di 30 gradi", il tuo interlocutore si perde. È troppo astratto.

Invece, il metodo LocateAnything3D insegna al modello a ragionare come un essere umano:

Prima, "vedi" in 2D: "Guarda, c'è un rettangolo rosso qui, in basso a sinistra". (Questo è il passo facile, come indicare qualcosa su una foto piatta).
Poi, "immagina" in 3D: "Ok, quel rettangolo rosso è un vaso. Poiché è in basso e sembra grande, deve essere vicino a me. Quindi è alto circa 40 cm".

Il modello crea una "Catena dello Sguardo": prima individua l'oggetto sulla foto (2D), e solo dopo usa quella certezza per calcolare la distanza e la forma (3D). È come costruire una casa: prima getti le fondamenta (la posizione 2D), poi costruisci i muri (la profondità 3D). Se salti le fondamenta, la casa crolla (il robot allucina e sbaglia).

2. L'Ordine delle Cose: "Dal Vicino al Lontano"

Quando guardi una strada affollata, il tuo cervello non analizza prima i dettagli di un'auto a 100 metri di distanza e poi un pedone vicino. Analizzi prima ciò che è vicino (perché è più urgente e chiaro), e poi passi a ciò che è lontano.

Il modello imita questo comportamento:

Curriculum "Dal Vicino al Lontano": Il robot dice prima "Vedo una macchina qui vicino", poi "Vedo un'altra macchina un po' più in là".
Perché funziona? Gli oggetti vicini sono più facili da vedere e danno al modello "indizi" per capire la scala degli oggetti lontani. È come se il modello dicesse: "So che questa tazza è grande, quindi quell'oggetto lontano che sembra piccolo deve essere davvero lontano".

3. La "Ricetta" per l'Intelligenza Artificiale

Fino a ieri, per far vedere il mondo in 3D a un'IA, servivano "teste" speciali (componenti software specifici) per ogni compito. Era come avere un coltellino svizzero con un solo utensile per ogni lavoro.

LocateAnything3D è diverso: è un coltellino svizzero universale.

Usa la stessa "testa" (lo stesso cervello) che usa per parlare e descrivere immagini.
Chiedi: "Dov'è la tazza?" e il modello risponde con una scatola 3D precisa.
Chiedi: "Dov'è il gatto?" e fa lo stesso.
Non serve cambiare il cervello del robot, basta dargli la giusta "ricetta" (la Catena dello Sguardo) per ragionare.

4. I Risultati: Un Salto di Qualità

Il modello è stato testato su un banco di prova molto difficile (chiamato Omni3D) che contiene milioni di immagini di interni ed esterni.

Il risultato: Ha battuto tutti i record precedenti, migliorando la precisione di oltre il 13% rispetto al miglior modello esistente.
La magia: Ha imparato a riconoscere oggetti che non aveva mai visto prima (come un "cactus" o un "gatto" specifico) solo leggendo il nome, senza bisogno di essere riaddestrato. È come se un bambino, dopo aver visto molte foto di cani, capisse subito che un "gatto" è un animale simile ma diverso, e lo localizzi nello spazio.

In Sintesi

LocateAnything3D è come insegnare a un robot a non solo "guardare" una foto, ma a "toccarla" mentalmente.
Invece di saltare direttamente alla conclusione complessa (dove è l'oggetto nello spazio?), gli insegna a fare un passo alla volta:

Trova l'oggetto sulla foto (2D).
Chiediti: "Quanto è vicino?".
Calcola: "Quanto è grande e come è girato?".

Questo approccio semplice, basato su come ragioniamo noi umani, permette alle intelligenze artificiali di diventare veri agenti fisici, pronti ad agire nel nostro mondo tridimensionale, non solo a descriverlo su uno schermo.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli Vision-Language (VLM) hanno fatto passi da gigante nella percezione 2D, eccellendo nella descrizione aperta e nel grounding (localizzazione) di oggetti in immagini. Tuttavia, una capacità fondamentale rimane carente: la rilevazione 3D multi-oggetto generica direttamente da immagini monocromatiche (monocular).
Le soluzioni esistenti per la rilevazione 3D monoculare soffrono di diverse limitazioni:

Dipendono da "teste" (head) specifiche per il compito.
Sono vincolate a spazi di etichette chiusi (vocabolari fissi).
Richiedono calibrazioni camera precise e spesso non ereditano la versatilità, la composizionalità e la capacità di seguire istruzioni tipiche dei VLM.
Le approcci recenti che tentano di colmare il gap spesso combinano rilevatori 2D aperti con teste 3D specializzate o richiedono input geometrici ausiliari, rompendo la semplicità del paradigma VLM nativo.

L'obiettivo è creare un VLM in grado di percepire nativamente il mondo in 3D, producendo box di delimitazione 3D affidabili e multi-oggetto da una singola immagine, mantenendo la capacità di open-vocabulary e di prompting visivo.

2. Metodologia: Chain-of-Sight (CoS)

La proposta centrale del paper è LocateAnything3D, un framework che trasforma la rilevazione 3D in un problema di predizione del prossimo token (next-token prediction) nativo per i VLM. La chiave di volta è una nuova strategia di decodifica e supervisione chiamata Chain-of-Sight (CoS).

A. Il Concetto di Chain-of-Sight

Invece di prevedere direttamente le coordinate 3D, il modello segue un ragionamento esplicito ispirato a come gli umani ragionano dalle immagini: prima identificare cosa è visibile in 2D, poi inferire distanza, dimensioni e orientamento.
La sequenza di token generata dal decoder è intercalata:

Localizzazione 2D: Il modello emette prima il box 2D ( $q_i$ ) dell'oggetto. Questo agisce come una "catena di pensiero visiva" (visual chain-of-thought) ad alta confidenza che focalizza l'attenzione sui pixel corretti.
Stima 3D: Immediatamente dopo, il modello predice il box 3D corrispondente ( $b_i$ ) basato sul box 2D appena generato.
Ripetizione: Questo ciclo si ripete per ogni oggetto fino a un token di fine sequenza.

Questa struttura vincola l'inferenza 3D a evidenze visive verificabili, riducendo le allucinazioni e fornendo un forte condizionamento per i token successivi.

B. Curriculum di Apprendimento (Curriculum Learning)

Per ottimizzare l'apprendimento autoregressivo, il paper introduce due livelli di ordinamento e fattorizzazione:

Ordinamento Inter-Oggetto (Near-to-Far):
- Gli oggetti vengono serializzati in base alla profondità, dal più vicino al più lontano.
- Motivazione: Gli oggetti vicini sono più utili per l'interazione e la sicurezza (ego-centric utility), forniscono segnali monoculare più forti (token iniziali ad alta evidenza) e stabiliscono un contesto geometrico che vincola la scala e la distanza degli oggetti lontani attraverso relazioni di occlusione e scala relativa.
Fattorizzazione Intra-Oggetto (Center $\to$ Size $\to$ Rotation):
- All'interno di ogni oggetto, il box 3D non viene predetto come un blocco unico, ma scomposto in una tupla ordinata semanticamente:
  1. Centro ( $t$ ): "Dov'è?" (la posizione è la più osservabile).
  2. Dimensioni ( $d$ ): "Quanto è grande?" (vincolato dalla posizione).
  3. Rotazione ( $R$ ): "Come è orientato?" (la parte più difficile e ambigua).
- Questo ordinamento riflette la disponibilità delle informazioni nei segnali monoculare e stabilizza l'apprendimento.

C. Preparazione dei Dati

Per addestrare questo modello, gli autori hanno curato un corpus su larga scala e centrato sulla camera:

Unificazione: Hanno unito sei dataset pubblici eterogenei (ARKitScenes, SUN-RGBD, Hypersim, Objectron, KITTI, nuScenes) in uno schema condiviso.
Formato Conversazionale: I dati sono convertiti in dialoghi VLM dove la risposta contiene la sequenza CoS (2D $\to$ 3D, vicino $\to$ lontano).
Anti-Allucinazione: Sono stati inclusi campioni negativi (query per oggetti assenti) per insegnare al modello a non rilevare oggetti inesistenti.
Totale: Il dataset finale comprende circa 1.74 milioni di esempi di training.

3. Contributi Chiave

Formulazione Chain-of-Sight: Trasforma la rilevazione 3D open-world monoculare in un problema nativo di predizione del token successivo nei VLM, accoppiando il grounding 2D esplicito con la decodifica 3D.
Curriculum e Rappresentazione Adattati: Introduce un ordinamento "dal vicino al lontano" tra gli oggetti e una tokenizzazione interna "centro-dimensioni-rotazione" che migliorano la robustezza e le prestazioni sotto variazioni di camera e categoria.
Dataset Unificato: Ha creato un corpus di dati coerente e pronto per CoS, unificando fonti eterogenee e permettendo ablationi sistemiche senza bisogno di teste specifiche per il compito.

4. Risultati Sperimentali

Il modello è stato valutato sul benchmark Omni3D, uno dei più difficili per la rilevazione 3D monoculare, coprendo scenari sia indoor che outdoor.

Prestazioni Generali: LocateAnything3D ha raggiunto uno stato dell'arte (SOTA) con un AP3D di 38.90. Questo rappresenta un miglioramento assoluto di +13.98 punti rispetto al miglior metodo precedente (DetAny3D), anche quando il baseline viene fornito con box 2D ground-truth (un vantaggio significativo che il modello proposto non ha).
Generalizzazione Zero-Shot: Il modello mostra una forte capacità di generalizzazione a categorie non viste durante l'addestramento, superando i baseline che dipendono da rilevatori 2D esterni (come Grounding DINO) per le proposte.
Grounding 3D: Nel task di grounding 3D (localizzare oggetti basandosi su descrizioni spaziali complesse), il modello supera di gran lunga i competitor (es. Cube-LLM), anche se addestrato su un dataset più piccolo (1.7M vs 9.6M immagini), dimostrando l'efficienza del metodo.
Ablation Study:
- Rimuovere il passaggio 2D (CoS) fa crollare l'accuratezza.
- Cambiare l'ordine da "Near-to-Far" a "Left-to-Right" o casuale degrada significativamente le prestazioni.
- L'ordinamento Center-Size-Rotation è superiore ad altre permutazioni.

5. Significato e Impatto

LocateAnything3D segna un passo fondamentale verso l'intelligenza incarnata (embodied intelligence).

Unificazione: Chiude il divario tra il riconoscimento open-vocabulary e la comprensione metrica 3D, tutto all'interno di un'unica interfaccia VLM.
Semplicità e Scalabilità: Elimina la necessità di moduli specializzati o teste 3D complesse, rendendo la percezione 3D scalabile con i dati e facilmente adattabile a nuovi domini.
Fondamento per l'Azione: Fornendo una rappresentazione dello stato della scena (box 3D) direttamente dal linguaggio e dalla visione, abilita agenti robotici e sistemi autonomi a pianificare azioni basate su una comprensione spaziale robusta e verificabile.

In sintesi, il paper dimostra che trattare la rilevazione 3D come un processo di ragionamento sequenziale (prima 2D, poi 3D; prima vicino, poi lontano) all'interno di un VLM è una strategia superiore rispetto ai metodi tradizionali, offrendo prestazioni record e una maggiore robustezza.