LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un robot muy inteligente que puede ver y hablar, pero hasta ahora, solo podía describir lo que veía en una foto plana (como un dibujo en un papel). Podía decirte: "¡Ahí hay un gato!", pero no podía decirte: "El gato está a dos metros de distancia, mide 40 centímetros de alto y está girado hacia la izquierda".

El papel que acabas de leer presenta a LocateAnything3D, un nuevo sistema que le enseña a estos robots a entender el mundo en 3D (con profundidad, tamaño y posición) usando solo una sola cámara, como si fuera el ojo humano.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El Robot "Plano"

Antes, los modelos de inteligencia artificial eran como pintores de cuadros: podían describir muy bien lo que veían en una imagen 2D. Pero si querías que interactuaran con el mundo real (como un robot que recoge una taza), necesitaban saber dónde está la taza en el espacio tridimensional. Los métodos anteriores eran como tener un pintor y un arquitecto separados: el pintor señalaba el objeto, y el arquitecto tenía que adivinar dónde estaba en el espacio, a menudo cometiendo errores.

2. La Solución: "La Cadena de la Vista" (Chain-of-Sight)

Los autores crearon un método llamado Chain-of-Sight (CoS). Imagina que el robot no salta directamente a adivinar la posición 3D. En su lugar, sigue un proceso de pensamiento muy humano, como si estuviera resolviendo un acertijo paso a paso:

Paso 1: "¡Lo veo!" (El 2D): Primero, el robot señala el objeto en la foto plana. "¡Ahí está el sofá!". Esto es fácil y seguro.
Paso 2: "¿Qué tan lejos está?" (El 3D): Una vez que sabe dónde está el sofá en la foto, usa esa información para calcular: "Si está en esa parte de la foto, debe estar a 3 metros de mí, medir 2 metros de ancho y estar girado así".

La analogía: Es como si estuvieras en una habitación oscura y alguien te dijera: "Primero, toca la pared con la mano (2D). Ahora que sabes que la pared está ahí, imagina qué tan lejos está la mesa que está justo al lado de ella (3D)". Al tocar primero la pared, tu cerebro tiene una referencia sólida para no perderse.

3. El Orden de las Cosas: De lo Cercano a lo Lejano

El sistema también tiene una regla de oro: enseña al robot a mirar primero lo que está cerca y luego lo que está lejos.

Analogía: Imagina que estás en una fiesta y tienes que describir a todos los invitados. Si intentas describir a la persona que está en la esquina más lejana primero, te confundirás. Pero si empiezas por la persona que tienes justo enfrente (que es fácil de ver), luego la que está a tu lado, y así sucesivamente, el resto del mundo se ordena más fácil.
El robot hace lo mismo: primero localiza los objetos cercanos (que dan pistas claras de tamaño y distancia) y luego usa esa información para entender los objetos lejanos.

4. El Entrenamiento: Un "Libro de Recetas" Universal

Para enseñarle esto, los creadores no solo le dieron al robot un libro de instrucciones, sino que crearon un gigantesco libro de recetas con millones de ejemplos.

Recopilaron fotos de casas, calles, oficinas y coches de todo el mundo.
Transformaron estos datos en una conversación: "Aquí hay una foto. Di qué ves en 2D, y luego dime cómo es en 3D".
El robot aprendió a hablar este nuevo lenguaje de "cajas 3D" de forma natural, sin necesidad de herramientas especiales o "cerebros extra".

5. ¿Por qué es tan importante?

Este avance es como pasar de tener un mapa de papel plano a tener un GPS en 3D integrado en los ojos del robot.

Precisión: En las pruebas, este sistema fue mucho mejor que los anteriores, incluso cuando los otros sistemas tenían "ayuda" (como tener las cajas 2D ya dibujadas).
Generalización: Funciona con cosas que nunca ha visto antes. Si le preguntas "¿Dónde está el objeto raro?", puede encontrarlo y medirlo, aunque no sepa su nombre exacto.
Futuro: Esto abre la puerta a robots que pueden entrar en tu casa, entender dónde está el sofá, la mesa y los juguetes, y ayudarte a recoger sin chocar contra nada.

En resumen:
LocateAnything3D le enseña a la inteligencia artificial a no solo "ver" una foto, sino a "sentir" el espacio. Al obligarla a pensar primero en lo que ve en la superficie (2D) y luego en la profundidad (3D), y al ordenar sus pensamientos de lo cercano a lo lejano, logra que la máquina entienda el mundo real con una claridad que antes solo tenían los humanos. ¡Es un gran paso para que los robots vivan y trabajen con nosotros!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: LocateAnything3D

1. El Problema

Aunque los Modelos de Lenguaje y Visión (VLM) han avanzado significativamente en la percepción abierta en 2D (descripción, localización y razonamiento sobre imágenes), carecen de una capacidad fundamental: la detección 3D multi-objeto generalista a partir de una sola imagen monoculares.

Limitaciones actuales: Los detectores 3D monoculares existentes suelen depender de cabezales específicos para tareas concretas, espacios de etiquetas cerrados y cámaras calibradas. No heredan la versatilidad, la composicionalidad ni la capacidad de seguir instrucciones de los VLMs.
La brecha: No existe un VLM que pueda percibir nativamente el mundo en 3D y generar cajas delimitadoras 3D confiables para múltiples objetos en una sola imagen, manteniendo la capacidad de "open-vocabulary" (vocabulario abierto) y la interacción mediante prompts visuales o de texto.

2. Metodología: LocateAnything3D y Chain-of-Sight (CoS)

La propuesta central es LocateAnything3D, un marco nativo de VLM que reformula la detección 3D como un problema de predicción del siguiente token disciplinado. La innovación clave es la formulación Chain-of-Sight (CoS) (Cadena de la Vista).

A. Chain-of-Sight (CoS):
En lugar de predecir directamente las cajas 3D, el modelo genera una secuencia de tokens estructurada que imita el razonamiento humano:

2D primero (Cadena de Pensamiento Visual): El decodificador primero emite la caja delimitadora 2D ( $q_i$ ) del objeto en la imagen. Esto actúa como una "evidencia visual" de alta confianza que ancla la inferencia posterior.
3D después: Inmediatamente después de la caja 2D, el modelo predice la caja 3D correspondiente ( $b_i$ ).
Secuencia: El patrón se repite para cada objeto: $q_1, b_1, q_2, b_2, \dots, \langle eos \rangle$ .

Beneficio: Esto reduce las alucinaciones al vincular los tokens 3D a evidencia visual verificable (la caja 2D) y simplifica el espacio de búsqueda para el modelo.

B. Currículo de Aprendizaje (Curriculum Learning):
Para estabilizar el aprendizaje autoregresivo, se implementan dos estrategias de ordenamiento:

Orden Inter-Objeto (Cerca $\to$ Lejos): Los objetos se predicen ordenados por profundidad, desde los más cercanos a los más lejanos.
- Razón: Los objetos cercanos proporcionan señales monoculares más fuertes y menos ambiguas. Además, establecen un contexto geométrico (escala relativa, oclusión) que restringe y facilita la predicción de objetos lejanos.
Orden Intra-Objeto (Centro $\to$ Tamaño $\to$ Rotación): Dentro de la predicción de cada caja 3D, los parámetros se decodifican en este orden específico.
- Razón: Primero se determina "dónde está" (centro), luego "qué tan grande es" (dimensiones) y finalmente "cómo está orientado" (rotación). Esto estabiliza el aprendizaje, ya que la ubicación y el tamaño restringen la estimación de la rotación.

C. Arquitectura y Entrenamiento:

Modelo Base: Utiliza un codificador de visión (SigLIP) y un modelo de lenguaje (Qwen2-8B) conectados por un proyector MLP ligero.
Datos: Se curó un corpus masivo y centrado en la cámara de 1.74 millones de ejemplos, unificando 6 conjuntos de datos heterogéneos (ARKitScenes, SUN-RGBD, Hypersim, Objectron, KITTI, nuScenes).
Pre-entrenamiento: Se realiza una fase de pre-entrenamiento en detección 2D y grounding (anclaje) para dotar al modelo de fuertes capacidades de localización antes de introducir la tarea 3D.
Negativos: Se incluyen muestras negativas (consultas sin objetos presentes) para reducir falsos positivos y entrenar la capacidad de rechazo.

3. Contribuciones Clave

Formulación Chain-of-Sight: Convierte la detección 3D monoculares de mundo abierto en un problema nativo de predicción de tokens en un VLM, acoplando explícitamente el grounding 2D con la decodificación 3D.
Diseño de Currículo y Representación: Introduce un ordenamiento "cerca-lejos" entre objetos y una tokenización "centro-tamaño-rotación" dentro de los objetos, optimizados para la decodificación autoregresiva, mejorando la robustez y la calibración.
Corpus Unificado y Escalable: Creación de un conjunto de datos unificado y centrado en la cámara que permite el entrenamiento sin cabezales específicos de tarea, facilitando la generalización y la investigación ablativa sistemática.

4. Resultados

El modelo fue evaluado en el benchmark Omni3D (que cubre escenas interiores y exteriores) y en tareas de grounding 3D.

Rendimiento en Omni3D:
- Alcanzó un AP3D de 38.90, superando al estado del arte anterior (DetAny3D) en +13.98 puntos absolutos.
- Nota crucial: Superó incluso a los métodos de referencia que utilizan cajas 2D de verdad absoluta (ground-truth) como entrada adicional. Esto demuestra que aprender 2D y 3D conjuntamente en una interfaz unificada es más efectivo que añadir un cabezal 3D a detectores 2D externos.
Generalización Zero-Shot:
- Muestra una fuerte capacidad de generalización a categorías no vistas durante el entrenamiento. En categorías novedosas, supera a los baselines que dependen de detectores 2D externos (como Grounding DINO) en todos los benchmarks probados (KITTI, SUN-RGBD, ARKitScenes).
Grounding 3D:
- En tareas de anclaje 3D con instrucciones de texto (ej. "silla a la izquierda"), superó significativamente a modelos como Cube-LLM, incluso entrenado con un conjunto de datos mucho más pequeño (1.7M vs 9.6M imágenes).
Eficiencia de Datos:
- El enfoque CoS es mucho más eficiente en datos. Con solo el 10% de los datos de entrenamiento, el modelo CoS supera al modelo de predicción 3D pura ("pure 3D") que usa el 100% de los datos.

5. Significado e Impacto

LocateAnything3D cierra una brecha histórica entre el reconocimiento de vocabulario abierto y la comprensión métrica 3D.

Unificación: Demuestra que la detección 3D no requiere arquitecturas especializadas complejas, sino que puede integrarse nativamente en la interfaz de tokens de los VLMs.
Agencia Embebida: Al proporcionar cajas 3D métricas y confiables a partir de una sola imagen, habilita a los agentes de inteligencia artificial para interactuar con el mundo físico (robótica, conducción autónoma) de manera más segura y precisa, sin necesidad de sensores LiDAR o cámaras múltiples.
Escalabilidad: La metodología basada en tokens y el uso de datos unificados permiten escalar la percepción 3D utilizando las mismas estrategias de entrenamiento masivo que han impulsado el éxito de los LLMs.

En resumen, el trabajo propone que para que un modelo "vea" en 3D, primero debe "ver" en 2D de manera explícita y ordenar su razonamiento según la profundidad y la estabilidad de las señales visuales, logrando así un rendimiento superior y una generalización robusta.

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

1. El Problema: El Robot "Plano"

2. La Solución: "La Cadena de la Vista" (Chain-of-Sight)

3. El Orden de las Cosas: De lo Cercano a lo Lejano

4. El Entrenamiento: Un "Libro de Recetas" Universal

5. ¿Por qué es tan importante?

Resumen Técnico: LocateAnything3D

1. El Problema

2. Metodología: LocateAnything3D y Chain-of-Sight (CoS)

3. Contribuciones Clave

4. Resultados

5. Significado e Impacto

Más como este

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation