Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Each language version is independently generated for its own context, not a direct translation.

Imagina que quieres pedirle a un robot que te traiga una manzana de una mesa llena de frutas. En el pasado, tenías que mirar fijamente la manzana durante varios segundos (como si estuvieras hipnotizándola) para que el robot entendiera qué querías. Si te movías un poco o si tu mirada temblaba, el robot se confundía y podía agarrar una pera por error.

Este paper presenta una nueva forma de hablar con robots llamada "Sticky-Glance" (que podríamos traducir como "Mirada Pegajosa"). Aquí te explico cómo funciona con analogías sencillas:

1. El Problema: La Mirada "Temblorosa"

Nuestros ojos nunca están totalmente quietos; hacen pequeños temblores naturales (como un coche en un bache). Además, si hay varios objetos moviéndose, es difícil para el robot saber a cuál estás mirando realmente. Los sistemas antiguos eran como un semáforo muy estricto: si no mirabas fijo y sin moverte durante mucho tiempo, no cambiaba de luz. Esto era lento y frustrante.

2. La Solución: La "Mirada Pegajosa"

Los autores crearon un algoritmo inteligente que actúa como un imán invisible.

Cómo funciona: En lugar de esperar a que mires fijo, el sistema observa la dirección y la distancia de tu mirada. Si tu mirada se mueve hacia una manzana, el sistema "pega" tu intención a esa manzana inmediatamente, como si la mirada tuviera un velcro.
La analogía del imán: Imagina que los objetos en la mesa son imanes. Si pasas tu mirada cerca de la manzana, el imán la "atrae" y se asegura de que el robot sepa que es esa la que quieres, incluso si solo la miraste un instante (un "glance" o vistazo rápido) o si tu mano tembló un poco.
El resultado: Solo necesitas 3 puntos de datos (un par de milisegundos de mirar) para que el robot sepa qué quieres. ¡Es como si el robot leyera tu mente en una fracción de segundo!

3. El Control Compartido: El "Autocruise" del Robot

Una vez que el robot sabe qué objeto te interesa, no se queda quieto esperando una orden verbal.

La analogía del coche: Imagina que conduces un coche con "cruise control" (control de crucero). Cuando miras hacia un destino, el coche empieza a moverse suavemente hacia allá mientras tú aún estás pensando.
En la práctica: El robot empieza a acercarse al objeto que miraste mientras tú aún estás decidiendo qué hacer con él. Esto ahorra mucho tiempo. Cuando finalmente dices "agarralo", el robot ya está casi encima, listo para actuar.

4. La Combinación Perfecta: "Mirar y Decir"

El sistema combina dos cosas para ser perfecto:

Ojos (Mirada): Para decir "QUÉ" quieres (el objeto). Es rápido y natural.
Voz (Palabra): Para decir "CÓMO" quieres hacerlo (agarrar, soltar, mover).

Esto es como si le dijeras al robot: "Mira esa taza" (y el robot la localiza al instante gracias a la "mirada pegajosa") y luego dices "Tráela" (y el robot ejecuta la acción).

¿Por qué es un gran avance?

Rapidez: Las tareas se completan un 10% más rápido porque el robot no espera a que te conviertas en estatua mirando fijo.
Precisión: Tiene un 98% de acierto, incluso si los objetos se mueven o si hay muchos en la mesa.
Menos estrés: En las pruebas con personas, los usuarios se sintieron mucho menos cansados mentalmente. No tenían que esforzarse por mantener la mirada fija; podían mirar de forma natural y el robot entendía.

En resumen:
Este sistema convierte a los robots en compañeros de equipo que entienden tus intenciones al instante, como si supieran leer tus pensamientos, permitiéndote interactuar con ellos de forma tan natural como si estuvieras hablando con un amigo, pero con la precisión de una máquina. Ya no tienes que "ordenar" al robot con la mirada; simplemente lo "invitas" a actuar con una mirada rápida y una palabra.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance", presentado en español:

1. Problema y Motivación

El reconocimiento de intenciones basado en la mirada (gaze) es una modalidad de entrada crucial para la robótica de asistencia, especialmente para personas con discapacidades motoras severas que conservan la capacidad cognitiva y el movimiento ocular. Sin embargo, existen desafíos significativos en entornos dinámicos y con múltiples objetos:

Ruido y Microsacadas: La mirada humana es inherentemente ruidosa y sufre de microsacadas involuntarias, lo que hace que los puntos de mirada se desvíen de los objetos objetivo.
Inestabilidad en Entornos Dinámicos: Los métodos existentes suelen basarse en tiempos de fijación prolongados (dwell-time) o suavizado estadístico, lo que introduce latencia o falla cuando los objetos se mueven o el usuario cambia de perspectiva rápidamente.
Ambigüedad de Grounding: Es difícil vincular de manera robusta los puntos de mirada 2D (en la imagen del usuario) con objetos 3D específicos en el espacio de trabajo del robot, especialmente con cambios de punto de vista.
Control Discreto vs. Continuo: Muchos sistemas actuales operan de forma discreta (esperan a confirmar una intención antes de moverse), lo que reduce la eficiencia y la fluidez de la interacción.

2. Metodología Propuesta

El sistema propone un marco de trabajo integral que combina percepción, un algoritmo de predicción de intención novedoso y un control compartido continuo.

A. Percepción y Alineación Multi-perspectiva

Entrada del Usuario: Se utilizan gafas Meta ARIA para capturar la trayectoria de la mirada y la pose de la cámara en tiempo real.
Percepción del Robot: Un robot con cámara RGB-D (Intel RealSense) construye nubes de puntos de objetos a nivel de objeto mediante registro ICP (Iterative Closest Point).
Alineación: Se propone un método de alineación óptima basado en emparejamiento de características (LightGlue) y proyección de nubes de puntos 3D a la imagen del usuario. Esto permite mapear la intención del usuario (vista humana) a los objetos reales (vista del robot) con alta precisión, incluso a distancias variables y ángulos de visión diferentes, superando los métodos basados en marcadores ArUco.

B. Algoritmo "Sticky-Glance" (Mirada Adherente)

Este es el núcleo de la innovación para el reconocimiento de intenciones. En lugar de depender de la fijación prolongada, el algoritmo modela la intención en el espacio geométrico:

Campo de Confianza Centrado en Objetos: Cada objeto candidato genera un campo de atracción/repulsión.
Evidencia Geométrica y Direccional: El algoritmo calcula dos términos de evidencia en tiempo real:
1. Evidencia de Distancia ( $e_{dist}$ ): Basada en la distancia entre el punto de mirada y el centro del objeto, y la tendencia de acercamiento o alejamiento.
2. Evidencia Direccional ( $e_{dir}$ ): Utiliza un "cono tangente" definido por la geometría del objeto y el movimiento de la mirada. Determina si el vector de desplazamiento de la mirada intersecta o se dirige hacia el objeto.
Efecto "Sticky" (Adherente): La confianza se actualiza acumulando estas evidencias a lo largo del tiempo. Esto permite que la intención se "pegue" al objeto incluso con miradas breves (mínimo 3 muestras) y resista el ruido de las microsacadas. Si la confianza supera un umbral, el objeto se selecciona.

C. Control Compartido Continuo e Interacción Multimodal

Estrategia "Glance-Say" (Mirar-Decir): Combina la mirada para la selección de objetos (grounding) y el habla para especificar la acción (ej. "agarrar", "verter").
Modo Pre-Comando (Standby): Mientras el usuario mira, el robot entra en un modo de "preparación continua". Calcula un objetivo virtual ponderado por la confianza y se mueve suavemente hacia él, reduciendo la distancia de recorrido una vez que se confirma la intención.
Modo Post-Comando: Al detectar un comando de voz, el sistema confirma el objeto seleccionado y ejecuta la tarea a máxima velocidad segura.
Seguridad: Incluye un paso de confirmación explícita por voz. Si el usuario rechaza la selección, el robot puede corregir el objetivo o volver a su posición inicial.

3. Contribuciones Clave

Algoritmo Sticky-Glance: Un módulo de estabilización de intención que mapea la mirada ruidosa a objetos centrándose en la geometría y la tendencia direccional, logrando una tasa de seguimiento del 0.94 en objetivos dinámicos y una precisión de selección del 0.98 en estáticos, sin necesidad de fijación prolongada.
Control Continuo Compartido: Una estrategia que modula la generación de movimiento basada en la confianza de la mirada, reduciendo la duración de la tarea en casi un 10% en comparación con métodos de control por pose de objetivo.
Protocolo de Interacción Multimodal: Integración de "mirada + habla" con confirmación explícita, logrando la mayor tasa de éxito (0.96) y la menor carga cognitiva en estudios con usuarios.

4. Resultados Experimentales

Los experimentos se realizaron en cuatro escenarios: seguimiento dinámico, alineación multi-perspectiva, tareas de manipulación y estudios con usuarios (16 participantes con discapacidad motora).

Robustez de Intención: Superó significativamente a las líneas base (kNN, fijación, HMM, LSTM). Mientras otros métodos caían en tasas de seguimiento bajas (0.13 - 0.81) en movimiento, Sticky-Glance mantuvo 0.92.
Alineación Multi-perspectiva: Mantuvo una precisión de alineación superior a 0.84 incluso a 80 cm de distancia y con ángulos de visión de 180°, superando a los métodos basados en ArUco y emparejamiento de características estándar.
Eficiencia de Tarea:
- Duración de Tarea: 29.5s (S4) vs 32.4s (FAM-HRI) y 36.1s (GlanceGaze).
- Duración de Comando: 1.4s (S4), significativamente menor que los métodos basados en GUI o fijación.
Evaluación de Usuario:
- Carga Cognitiva (NASA-TLX): 25.57 (el más bajo), indicando un esfuerzo mental reducido.
- Usabilidad (SUS): 86.42 (el más alto), demostrando una clara preferencia de los usuarios por el enfoque propuesto.

5. Significado e Impacto

Este trabajo representa un avance significativo en la interacción humano-robot (HRI) para asistencia:

Naturalidad: Permite una interacción fluida y rápida sin requerir que el usuario "fije" la mirada durante segundos, lo cual es físicamente exigente y antinatural.
Robustez: Resuelve el problema de la inestabilidad de la mirada en entornos reales y dinámicos mediante un modelado geométrico inteligente.
Seguridad y Eficiencia: La combinación de control continuo (el robot se prepara mientras el usuario mira) y confirmación por voz crea un sistema que es a la vez rápido y seguro, reduciendo la frustración y el tiempo de tarea.
Escalabilidad: Aunque actualmente utiliza componentes manuales, el marco demuestra la viabilidad de sistemas de control de robots de brazo para usuarios con discapacidades severas, abriendo camino hacia modelos end-to-end más adaptativos en el futuro.

En resumen, Sticky-Glance transforma la mirada de un señal de entrada ruidosa y lenta en una interfaz de control robusta, rápida y natural, permitiendo a las personas con discapacidades motoras interactuar con robots de manera eficiente y segura.