LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

El artículo presenta LocateAnything3D, un modelo nativo de visión-idioma que reformula la detección 3D como un problema de predicción de tokens mediante una secuencia de "Cadena de Visión" que imita el razonamiento humano para lograr resultados de vanguardia en la localización de objetos en 3D.

Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

Publicado 2026-02-24
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un robot muy inteligente que puede ver y hablar, pero hasta ahora, solo podía describir lo que veía en una foto plana (como un dibujo en un papel). Podía decirte: "¡Ahí hay un gato!", pero no podía decirte: "El gato está a dos metros de distancia, mide 40 centímetros de alto y está girado hacia la izquierda".

El papel que acabas de leer presenta a LocateAnything3D, un nuevo sistema que le enseña a estos robots a entender el mundo en 3D (con profundidad, tamaño y posición) usando solo una sola cámara, como si fuera el ojo humano.

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El Robot "Plano"

Antes, los modelos de inteligencia artificial eran como pintores de cuadros: podían describir muy bien lo que veían en una imagen 2D. Pero si querías que interactuaran con el mundo real (como un robot que recoge una taza), necesitaban saber dónde está la taza en el espacio tridimensional. Los métodos anteriores eran como tener un pintor y un arquitecto separados: el pintor señalaba el objeto, y el arquitecto tenía que adivinar dónde estaba en el espacio, a menudo cometiendo errores.

2. La Solución: "La Cadena de la Vista" (Chain-of-Sight)

Los autores crearon un método llamado Chain-of-Sight (CoS). Imagina que el robot no salta directamente a adivinar la posición 3D. En su lugar, sigue un proceso de pensamiento muy humano, como si estuviera resolviendo un acertijo paso a paso:

  • Paso 1: "¡Lo veo!" (El 2D): Primero, el robot señala el objeto en la foto plana. "¡Ahí está el sofá!". Esto es fácil y seguro.
  • Paso 2: "¿Qué tan lejos está?" (El 3D): Una vez que sabe dónde está el sofá en la foto, usa esa información para calcular: "Si está en esa parte de la foto, debe estar a 3 metros de mí, medir 2 metros de ancho y estar girado así".

La analogía: Es como si estuvieras en una habitación oscura y alguien te dijera: "Primero, toca la pared con la mano (2D). Ahora que sabes que la pared está ahí, imagina qué tan lejos está la mesa que está justo al lado de ella (3D)". Al tocar primero la pared, tu cerebro tiene una referencia sólida para no perderse.

3. El Orden de las Cosas: De lo Cercano a lo Lejano

El sistema también tiene una regla de oro: enseña al robot a mirar primero lo que está cerca y luego lo que está lejos.

  • Analogía: Imagina que estás en una fiesta y tienes que describir a todos los invitados. Si intentas describir a la persona que está en la esquina más lejana primero, te confundirás. Pero si empiezas por la persona que tienes justo enfrente (que es fácil de ver), luego la que está a tu lado, y así sucesivamente, el resto del mundo se ordena más fácil.
  • El robot hace lo mismo: primero localiza los objetos cercanos (que dan pistas claras de tamaño y distancia) y luego usa esa información para entender los objetos lejanos.

4. El Entrenamiento: Un "Libro de Recetas" Universal

Para enseñarle esto, los creadores no solo le dieron al robot un libro de instrucciones, sino que crearon un gigantesco libro de recetas con millones de ejemplos.

  • Recopilaron fotos de casas, calles, oficinas y coches de todo el mundo.
  • Transformaron estos datos en una conversación: "Aquí hay una foto. Di qué ves en 2D, y luego dime cómo es en 3D".
  • El robot aprendió a hablar este nuevo lenguaje de "cajas 3D" de forma natural, sin necesidad de herramientas especiales o "cerebros extra".

5. ¿Por qué es tan importante?

Este avance es como pasar de tener un mapa de papel plano a tener un GPS en 3D integrado en los ojos del robot.

  • Precisión: En las pruebas, este sistema fue mucho mejor que los anteriores, incluso cuando los otros sistemas tenían "ayuda" (como tener las cajas 2D ya dibujadas).
  • Generalización: Funciona con cosas que nunca ha visto antes. Si le preguntas "¿Dónde está el objeto raro?", puede encontrarlo y medirlo, aunque no sepa su nombre exacto.
  • Futuro: Esto abre la puerta a robots que pueden entrar en tu casa, entender dónde está el sofá, la mesa y los juguetes, y ayudarte a recoger sin chocar contra nada.

En resumen:
LocateAnything3D le enseña a la inteligencia artificial a no solo "ver" una foto, sino a "sentir" el espacio. Al obligarla a pensar primero en lo que ve en la superficie (2D) y luego en la profundidad (3D), y al ordenar sus pensamientos de lo cercano a lo lejano, logra que la máquina entienda el mundo real con una claridad que antes solo tenían los humanos. ¡Es un gran paso para que los robots vivan y trabajen con nosotros!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →