Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un robot cuadrúpedo (como un perro mecánico) con un brazo robótico, y tu misión es pedirle que coja un objeto específico en una habitación llena de cajas, juguetes y desorden. El problema es que el robot no puede ver todo el objeto; está parcialmente escondido detrás de otras cosas, y la cámara a veces "se pierde" en las sombras o en superficies brillantes.

Este artículo presenta una solución inteligente para que el robot no solo vea el objeto, sino que entienda su forma completa (aunque esté oculto) y coja el objeto sin chocar contra nada.

Aquí tienes la explicación paso a paso, usando analogías sencillas:

1. El Problema: "Ver solo la punta del iceberg"

En el mundo real, los objetos rara vez se ven perfectos. Si intentas agarrar una botella azul que está medio escondida detrás de una caja, el robot solo ve la parte de arriba.

El error común: Los robots antiguos intentaban agarrar basándose solo en lo que veían en ese instante. Si la botella estaba escondida, el robot pensaba: "Ah, es una botella plana" y trataba de agarrarla de lado, chocando contra la caja o dejando caer la botella.
La analogía: Es como intentar adivinar la forma de un elefante en la oscuridad solo tocando su trompa. Si no imaginas el resto del cuerpo, no sabrás cómo abrazarlo.

2. La Solución: El "Detective con Superpoderes"

Los autores crearon un sistema que funciona como un detective muy listo con tres superpoderes:

A. Entender lo que le pides (El Detective Semántico)

En lugar de decirle al robot "coge el objeto en la coordenada X, Y, Z", tú le hablas en lenguaje natural: "Coge la botella azul".

Cómo funciona: El robot usa un "cerebro" de Inteligencia Artificial (llamado VLM) que entiende el lenguaje. Busca en la cámara la "botella azul" y dibuja un recuadro alrededor de ella. Es como si el robot tuviera gafas mágicas que resaltan lo que le pides.

B. Imaginar lo que falta (El Pintor de Fantasía)

Aquí está la magia. Una vez que el robot ve la parte visible de la botella, sabe que hay una parte oculta.

El truco: El sistema usa dos herramientas de IA (MGPC y PoinTr) para completar el dibujo. Imagina que ves solo la mitad de un rompecabezas; estas herramientas "adivinan" y dibujan la otra mitad basándose en cómo suelen ser las botellas.
Resultado: El robot ya no ve una botella "mutilada", sino una botella completa y sólida en su mente, incluso si la cámara no la ve. Esto le permite calcular dónde está el centro de gravedad y cómo agarrarla firmemente.

C. Planear el movimiento sin chocar (El Bailarín Espacial)

Ahora que el robot sabe cómo es el objeto completo, necesita agarrarlo sin chocar contra las cajas vecinas.

El movimiento: El robot no se queda quieto. Si ve que su brazo no llega o que chocaría contra una caja, mueve sus patas (el cuerpo del robot) para acercarse o cambiar de ángulo.
La analogía: Es como un bailarín que, antes de intentar un paso difícil, da un paso lateral para tener espacio. El robot calcula: "Si me muevo un poco a la izquierda, puedo agarrar la botella sin tocar la caja".

3. ¿Funcionó? (Los Resultados)

Los autores probaron esto en un robot real (un Boston Dynamics Spot) en dos escenarios difíciles:

Taladro eléctrico: Escondido entre cajas y cables.
Botella azul: Escondida detrás de otros objetos.

La comparación:

El robot "tonto" (sin el sistema nuevo): Intentó agarrar basándose solo en lo que veía en ese momento. Falló en el 70% de los intentos porque chocaba contra las cajas o no podía alcanzar el objeto.
El robot "inteligente" (con el sistema nuevo): Logró agarrar el objeto con éxito en el 90% de los casos.

En resumen

Este papel nos enseña que para que un robot sea realmente útil en un mundo desordenado, no basta con que tenga buenos ojos. Necesita:

Entender el idioma (saber qué quieres).
Tener imaginación (completar mentalmente lo que está oculto).
Ser flexible (moverse para encontrar el mejor ángulo).

Es como pasar de tener un robot que es un "torpe con una cámara" a tener un "ayudante experto" que puede navegar por un desorden y hacer el trabajo sucio sin romper nada.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Pipeline de Agarres Agnóstico al Punto de Vista

1. Planteamiento del Problema

El agarre robusto de objetos en entornos desordenados y no estructurados sigue siendo un desafío fundamental para los manipuladores móviles (especialmente robots bípedos o cuadrúpedos con brazos). Las dificultades principales incluyen:

Observaciones parciales: Debido a oclusiones severas, el robot no puede ver la geometría completa del objeto.
Estimaciones de profundidad poco fiables: Sensores limitados generan ruido, agujeros y píxeles voladores en los mapas de profundidad.
Restricciones de ejecución: Un agarre que parece geométricamente válido en la superficie visible puede ser inviable en la práctica debido a colisiones con el entorno, restricciones cinemáticas del brazo o falta de trayectoria de aproximación libre.
Selección de objetivos semántica: En entornos abiertos, el objetivo se especifica mediante lenguaje natural (ej. "botella azul") en lugar de estar pre-segmentado, lo que requiere una integración entre percepción semántica y ejecución física.

La mayoría de los enfoques existentes tratan la percepción, la predicción de agarres y la ejecución como módulos separados, sin considerar las restricciones de ejecución durante la fase de planificación.

2. Metodología Propuesta

Los autores proponen un pipeline end-to-end (de extremo a extremo) que conecta la selección de objetivos basada en lenguaje con la ejecución segura en un robot real. El sistema se ejecuta en un robot cuadrúpedo Boston Dynamics Spot equipado con un brazo y un efector final tipo pinza. El flujo de trabajo consta de cuatro módulos principales:

A. Detección y Segmentación (Percepción Semántica)

Entrada: Comandos de lenguaje natural (ej. "taladro").
Procesamiento: Se utiliza Grounding DINO (detector de vocabulario abierto) para localizar el objeto en la imagen RGB y generar un cuadro delimitador.
Refinamiento: Este cuadro se pasa a SAM 2 (Segment Anything Model 2) para obtener una máscara de instancia precisa. Se aplica erosión morfológica para evitar fugas en objetos adyacentes.
Seguimiento: SAM 2 mantiene la máscara a través de los fotogramas; si falla, se re-inicializa Grounding DINO.

B. Generación y Estimación de Nube de Puntos (Geometría 3D)
El objetivo es reconstruir la geometría del objeto a partir de observaciones parciales (RGB-D):

Extracción: Se utiliza Isaac ROS Nvblox para proyectar la profundidad y extraer una nube de puntos parcial centrada en el objeto basada en la máscara.
Compensación de Profundidad: Se rellenan agujeros pequeños y se atenúan valores atípicos (outliers) utilizando la consistencia del vecindario local antes de la extracción.
Completado de Nube de Puntos (Dos etapas):
- MGPC (Multimodal Point Cloud Completion): Utiliza el contexto multimodal (prompt de texto, imagen RGB y nube parcial) para generar puntos sintéticos que estiman las partes ocultas del objeto.
- PoinTr: Un modelo de completado puramente basado en nubes de puntos que densifica la geometría localmente en parches para mejorar la calidad de las normales, crucial para la generación de agarres.

Resultado: Una nube de puntos densificada y completa ( $P_{complete}$ ) lista para la planificación.

C. Generación y Selección de Poses de Agarres

Generación: Se utiliza el Grasp Pose Generator (GPG) para muestrear 1000 candidatos de agarres de 6 DoF sobre la nube de puntos completada.
Filtrado de Colisiones: Se eliminan candidatos que colisionen con la geometría del entorno circundante.
Clasificación Heurística: Se selecciona el mejor agarre ( $g^*$ $g^{*}$ ) minimizando una función de costo que considera:
- Alineación: Desviación angular respecto a la dirección de aproximación del robot.
- Sesgo de aproximación: Penalización binaria para direcciones inviables (ej. acercarse desde abajo).
- Centralidad: Distancia al centroide del objeto (favorece agarres estables).
- Restricción de alcance: Penalización dura si el agarre está fuera del radio máximo del brazo.

D. Ejecución y Control de Movimiento

Reposicionamiento Móvil: Si el agarre seleccionado no es alcanzable desde la posición actual, el robot mueve su base (locomoción) para mejorar la accesibilidad y el margen de maniobra antes de mover el brazo.
Secuencia: Aproximación pre-agarre $\rightarrow$ inserción cartesiana final $\rightarrow$ cierre de la pinza. Todo gestionado por una máquina de estados finita.

3. Contribuciones Clave

Marco Unificado End-to-End: Integra la especificación de objetivos por lenguaje natural con la planificación de agarres ejecutables para robots móviles en entornos desordenados.
Selección de Agarres Consciente de la Ejecución: Incorpora restricciones de colisión, viabilidad de aproximación y límites cinemáticos del cuerpo completo en la fase de selección, no solo en la ejecución.
Estimación de Geometría Resiliente a Oclusiones: Utiliza un proceso de reconstrucción 3D con compensación de profundidad y completado de nubes de puntos (MGPC + PoinTr) para manejar observaciones parciales severas.
Validación en el Mundo Real: Demostración exitosa en una plataforma móvil cuadrúpeda real, superando significativamente a las líneas base tradicionales.

4. Resultados Experimentales

El sistema se evaluó en dos escenarios de mesa desordenada (un taladro parcialmente oculto y una botella azul detrás de cajas) utilizando un robot Spot. Se comparó el método propuesto contra una línea base dependiente del punto de vista (que no realiza completado de geometría ni reposicionamiento de la base).

Tasa de Éxito Global:
- Método Propuesto: 90% (9/10 intentos exitosos).
- Línea Base: 30% (3/10 intentos exitosos).
Análisis de Fallos:
- La línea base falló principalmente por colisiones durante la aproximación (FM-2/FM-3) debido a que los agarres se planificaron solo con la geometría visible inicial, ignorando el entorno oculto.
- El método propuesto solo falló una vez debido a una falta de alcance (FM-1), demostrando una mayor robustez ante oclusiones y una mejor capacidad de planificación de trayectorias seguras.
Hallazgos: La combinación de estimación de geometría con completado y la selección de agarres consciente de la ejecución redujo drásticamente los fallos por colisión.

5. Significado y Conclusión

Este trabajo demuestra que para la manipulación robótica en entornos no estructurados, es crítico cerrar la brecha entre la percepción semántica (qué objeto agarrar) y la geometría de ejecución (cómo agarrarlo de forma segura).

Robustez: La capacidad de inferir geometría oculta y planificar movimientos de la base permite al robot operar en situaciones donde los métodos tradicionales fallan.
Escalabilidad: El uso de modelos de lenguaje y visión (VLM) permite especificar tareas sin reentrenamiento específico para cada objeto nuevo.
Impacto: El pipeline ofrece una solución práctica para operaciones de inspección, intervención remota y operaciones de campo donde los robots deben interactuar con objetos parcialmente visibles y desordenados.

Limitaciones futuras: Los autores reconocen que la calidad del sensor de profundidad y la ambigüedad en la especificación del objetivo por lenguaje siguen siendo desafíos, y planean investigar una integración más estrecha entre la estimación de geometría y la planificación bajo incertidumbre para una implementación totalmente a bordo (onboard).