Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando pedir a um robô que pegue uma maçã específica em uma mesa cheia de frutas. O problema é que seus olhos não são câmeras perfeitas; eles tremem um pouco, você pisca, e às vezes olha rapidamente para outra coisa antes de decidir. Sistemas antigos de controle por olhar exigiam que você "congelasse" o olhar na maçã por vários segundos (como se fosse um clique de mouse demorado). Isso é cansativo e lento.

O artigo "Sticky-Glance" (Olho Grudento) apresenta uma nova forma de fazer isso, tornando a interação entre humanos e robôs muito mais natural, rápida e segura.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Olhar "Tremido"

Pense no seu olhar como uma lanterna em uma sala escura cheia de objetos. Quando você aponta a lanterna para um objeto, ela nunca fica perfeitamente parada; ela treme um pouco (os cientistas chamam isso de micro-sacadas).

Sistemas antigos: Se você olhasse para a maçã por menos de 2 segundos, o robô dizia: "Não entendi, você está tremendo demais, tente de novo".
O desafio: Como fazer o robô entender que você quer a maçã, mesmo que você só dê uma "olhadinha rápida" e seu olho tremesse?

2. A Solução: O Efeito "Grudento" (Sticky-Glance)

Os autores criaram um algoritmo chamado Sticky-Glance. Imagine que o olhar do usuário é como um ímã e os objetos na mesa são feitos de papelão.

Como funciona: Assim que você olha na direção da maçã, o sistema não espera você ficar parado. Ele começa a "colar" sua intenção na maçã.
A mágica: O sistema analisa duas coisas:
1. Distância: O olhar está ficando mais perto da maçã?
2. Direção: O olhar está se movendo em direção à maçã ou se afastando?
Resultado: Mesmo que você dê apenas 3 "piscadas" rápidas (o que é muito pouco tempo), o sistema entende: "Ah, ele está indo para a maçã!" e "gruda" a intenção nela. Se você olhar rapidamente para uma laranja e voltar para a maçã, o sistema percebe a mudança de direção e "desgruda" da laranja e "gruda" na maçã.

3. O Robô Não Fica Parado: O "Modo de Espera Ativa"

Em sistemas antigos, o robô ficava totalmente parado até que você dissesse "Pegue a maçã".

A nova abordagem: O robô entra em um modo de "segurança ativa". Enquanto você está olhando para a maçã, o braço do robô já começa a se mover suavemente em direção a ela, como se estivesse "puxando" o objeto para perto.
Analogia: É como se você estivesse em um elevador e, ao apertar o botão do 3º andar, as portas já começam a se fechar e o elevador a subir levemente, em vez de esperar você falar "suba". Isso economiza tempo.

4. A Parceria Perfeita: "Olhar + Falar"

O sistema combina dois sentidos para evitar erros:

Olhar (para escolher): Você olha para o objeto que quer. É rápido e intuitivo.
Falar (para confirmar): Você diz "Pegar" ou "Colocar".
Por que é melhor? Se você apenas olhar, o robô pode não saber se você quer pegar, jogar fora ou apenas olhar. Se você apenas falar, tem que descrever a posição ("pegue a maçã da terceira fileira"), o que é difícil e confuso. Juntar os dois é como apontar para o prato e dizer "Quero isso!".

5. O Alinhamento de Perspectivas (O "Tradutor")

Um grande problema é que o robô vê o mundo de um ângulo (de cima, com uma câmera no braço) e você vê de outro (com óculos na cabeça).

A solução: O sistema funciona como um tradutor em tempo real. Ele pega o que você vê e "desenha" mentalmente onde os objetos estão para o robô, mesmo que você esteja de um ângulo estranho ou longe. Isso garante que, quando você olhar para a maçã, o robô saiba exatamente qual maçã é, mesmo que pareça diferente para ele.

Os Resultados na Prática

Os testes mostraram que esse sistema é incrível:

Precisão: Acertou 98% das vezes em objetos parados e 94% em objetos que se moviam.
Velocidade: As tarefas foram feitas quase 10% mais rápido porque o robô não esperava o comando final para começar a se mover.
Cansaço Mental: Os usuários se sentiram muito menos cansados e frustrados comparados a outros sistemas, porque não precisavam ficar "congelando" o olhar por segundos.

Resumo Final

O Sticky-Glance é como dar ao robô um "instinto" para entender seus olhos. Ele não exige que você seja um robô olhando fixamente; ele aceita seus olhares naturais, rápidos e um pouco tremidos, "grudando" na intenção certa e começando a agir antes mesmo de você terminar de falar. É um passo gigante para tornar a colaboração entre humanos e robôs algo fluido, como conversar com um amigo.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Sticky-Glance

1. Problema e Contexto

O reconhecimento de intenção baseado em olhar (gaze) é uma modalidade de entrada crucial para a robótica assistiva, especialmente para pessoas com deficiências motoras severas que mantêm a cognição e o movimento ocular intactos. No entanto, a implementação robusta em ambientes reais enfrenta três desafios principais:

Ruído e Instabilidade: Micro-sacadas (movimentos oculares involuntários), tremores de cabeça e ruído nos sensores dificultam a distinção entre um olhar intencional e ruído.
Ambientes Dinâmicos e Multi-objetos: A fixação prolongada (dwell-time), comum em sistemas atuais, é lenta e falha em cenários dinâmicos onde os objetos se movem ou quando o usuário alterna rapidamente o foco.
Desconexão entre Percepção e Controle: Muitos sistemas atuais operam em modo discreto (esperam confirmação total antes de mover), o que gera atrasos e reduz a fluidez da interação, ou dependem de interfaces gráficas (GUIs) que aumentam a carga cognitiva.

O objetivo do trabalho é criar um sistema que infira a intenção do usuário de forma robusta com apenas um olhar rápido (single-glance), mesmo com poucos dados (mínimo de 3 amostras), e que integre essa intenção a um controle contínuo e seguro do robô.

2. Metodologia

O sistema proposto, chamado Sticky-Glance, opera através de um pipeline que combina percepção humana, ancoragem geométrica de intenção e controle compartilhado contínuo.

A. Percepção e Projeção

Utiliza óculos Meta ARIA para rastreamento ocular e câmeras SLAM/IMU para estimativa de pose.
Projeta os pontos de olhar do usuário (perspectiva egocêntrica) para o espaço 3D do robô.
Detecta objetos usando YOLO e rastreamento multi-objeto (ByteTrack). Objetos são modelados geometricamente (círculos circunscritos) para tolerar variações de forma e ruído de detecção.

B. Algoritmo Sticky-Glance (Ancoragem de Intenção)
O núcleo da proposta é um algoritmo que mapeia pontos de olhar ruidosos para uma intenção ancorada no objeto, sem exigir fixação prolongada.

Campo de Confiança Baseado em Objetos: Em vez de suavizar o olhar no espaço 2D, o algoritmo constrói um campo de confiança centrado em cada objeto candidato.
Modelagem Geométrica e Temporal: A confiança é atualizada acumulando duas evidências:
1. Evidência de Distância ( $e_{dist}$ ): Baseada na proximidade do ponto de olhar ao centro do objeto e na tendência de movimento (se o olhar está se aproximando ou afastando).
2. Evidência Direcional ( $e_{dir}$ ): Utiliza um "cone tangente" definido pela geometria do objeto e a posição anterior do olhar. Se o vetor de deslocamento do olhar intersecta o cone do objeto, a evidência é positiva; caso contrário, é negativa (repulsão).
Efeito "Sticky" (Grudento): A confiança é integrada ao longo do tempo. Uma vez que a confiança atinge um limiar mínimo, a intenção "gruda" no objeto, mantendo-se estável mesmo se o olhar oscilar brevemente (micro-sacadas) ou se o objeto se mover. Isso permite a seleção com apenas 3 amostras de olhar.

C. Alinhamento Multi-perspectiva
Para conectar o que o usuário vê ao que o robô vê, o sistema utiliza um método de correspondência ótima:

Projeta nuvens de pontos 3D dos objetos (obtidas pela câmera do robô) na imagem do usuário.
Utiliza correspondência de características (LightGlue) e o algoritmo Hungarian para encontrar a correspondência ideal entre os objetos detectados pelo usuário e os do robô, superando falhas de marcadores ArUco em grandes distâncias ou ângulos variados.

D. Controle Compartilhado Contínuo e Interação Multimodal

Modo Pré-comando (Standby): Enquanto o usuário olha, o robô não fica parado. Ele calcula um "alvo virtual" ponderado pela confiança dos objetos candidatos e move suavemente o efetuador final em direção a eles (com desaceleração de segurança). Isso reduz o tempo de reação.
Modo Pós-comando (Execução): Após o usuário confirmar verbalmente (ex: "pegar"), o sistema fixa o alvo e executa a tarefa.
Protocolo "Glance-Say": O olhar serve para ancorar o objeto (grounding) e a fala para especificar a ação. Um passo de confirmação explícita garante segurança.

3. Contribuições Principais

Módulo de Estabilização de Intenção "Sticky-Glance": Um algoritmo que mapeia olhar ruidoso para intenção centrada no objeto, alcançando robustez contra micro-sacadas e movimento de objetos sem necessidade de fixação prolongada ou ajuste fino por tarefa.
Estratégia de Controle Contínuo: Transição suave entre comportamento de espera e atração rápida, baseada na confiança do olhar e proximidade espacial, reduzindo o tempo total da tarefa.
Protocolo de Interação Multimodal: Combinação de olhar contínuo para seleção de alvo e fala discreta para execução, com confirmação explícita, otimizando a segurança e a usabilidade.

4. Resultados Experimentais

Os experimentos foram realizados com 16 participantes (incluindo pessoas com deficiência de membros superiores) em cenários dinâmicos e estáticos, comparando com baselines como kNN, fixação, HMM, LSTM e outros sistemas de HRI.

Robustez de Reconhecimento:
- Taxa de Rastreamento (Objetos Dinâmicos): 0,92 (superior a todos os baselines, que variaram de 0,13 a 0,81).
- Precisão de Seleção (Objetos Estáticos): 0,98.
- Amostras Mínimas: Necessita apenas de 3 amostras de olhar para reconhecer a intenção, contra 20-25 em métodos baseados em aprendizado profundo ou modelos probabilísticos.
Alinhamento Multi-perspectiva: Mantém precisão acima de 0,84 mesmo a 80 cm de distância e com grandes variações de ângulo, superando métodos baseados em ArUco e correspondência de características tradicionais.
Desempenho de Tarefa:
- Redução de ~10% na duração total da tarefa em comparação com sistemas de controle de pose de alvo (como FAM-HRI).
- Taxa de sucesso de 0,96 em tarefas complexas com sobreposição de objetos.
Estudo com Usuários:
- Carga Cognitiva (NASA-TLX): 25,57 (o mais baixo entre todos os métodos, indicando menor esforço mental).
- Usabilidade (SUS): 86,42 (o mais alto, indicando alta preferência do usuário).

5. Significado e Impacto

O trabalho "Sticky-Glance" representa um avanço significativo na interação Humano-Robô (HRI) ao resolver o dilema clássico entre estabilidade (evitar seleções acidentais) e responsividade (evitar tempos de espera longos).

Para Acessibilidade: Oferece uma interface de baixa carga cognitiva e alta eficiência para usuários com limitações motoras severas, permitindo controle robótico natural e rápido.
Para Robótica: Demonstra que a modelagem geométrica explícita (distância e direção) pode superar abordagens puramente baseadas em aprendizado de dados ou estatísticas temporais em cenários dinâmicos e não estruturados.
Paradigma de Controle: Introduz um modelo de "controle compartilhado contínuo" onde o robô antecipa a intenção, tornando a interação mais fluida e menos frustrante do que os sistemas de "parar-e-esperar" tradicionais.

Em suma, o sistema propõe um novo padrão para interfaces de olhar em robótica, transformando um sinal de entrada ruidoso e esparsamente amostrado em uma intenção de controle robusta e segura.