Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 "Sticky-Glance"（粘性一瞥） 的新系统，旨在帮助那些手部行动不便的人（比如高位截瘫患者）通过**“看一眼” + “说一句话”**来轻松控制机器人手臂。

想象一下，你坐在轮椅上，想拿起桌上的苹果。以前，你可能需要盯着苹果看很久（比如 2 秒），或者在屏幕上点来点去，这既累人又容易出错。而这项新技术，让你只需要快速地瞥一眼苹果，机器人就能立刻明白你的意图，并开始向你“靠拢”。

为了让你更直观地理解，我们可以用几个生活中的比喻来拆解这项技术：

1. 核心难题：眼神的“抖动”与“犹豫”

人的眼睛其实很“调皮”。即使你想盯着一个东西，眼球也会不由自主地微小跳动（这叫微扫视），或者因为头稍微动了一下，视线就偏了。

旧方法的问题：以前的系统像是一个**“死板的保安”**。如果你盯着苹果看的时间不够长（比如没达到 2 秒），保安就认为你没看准，不让你进；或者如果你眼神稍微抖了一下，保安就以为你改主意了，把你赶出去。这在动态环境（比如苹果在动）中特别容易失效。

2. 解决方案：Sticky-Glance（粘性一瞥）

作者发明了一个**“粘性磁铁”**机制。

比喻：想象你的视线是一个带有粘性的飞镖。
- 当你看向苹果时，飞镖并没有直接扎在苹果上就结束，而是带有一种“粘性”。
- 即使你的视线因为手抖或头动稍微偏离了一点，这个“粘性”也会把飞镖拉回到苹果上。
- 系统会同时计算两个因素：距离（你离苹果多近）和方向（你的视线是不是正朝着苹果移动）。
- 结果：只要你的视线扫过苹果（哪怕只有 3 个数据点，也就是眨眼间的一瞥），系统就能确认：“哦，他是想要这个苹果！”而不是让你死盯着不放。

3. 人机协作：像“自动驾驶”一样的机器人

一旦机器人确认了你想拿苹果，它不会傻站着等你发号施令。

比喻：这就像**“自动驾驶汽车”**。
- 当你看向苹果时，机器人就像一辆正在缓慢滑行的车，它已经“预感”你要去那里，并开始慢慢向苹果靠拢（这叫“连续共享控制”）。
- 当你确认了（比如你说“拿起来”），它就直接加速完成动作。
- 好处：这比那种“先完全停住，等你确认，再启动”的旧模式快了近 10%，而且感觉更自然、更流畅。

4. 眼睛与嘴巴的“完美搭档”

系统采用了**“看一眼 + 说一声”**的模式：

眼睛（定位）：负责告诉机器人“我要哪个”。就像你在人群中用眼神锁定朋友。
嘴巴（指令）：负责告诉机器人“我要做什么”。比如你说“拿起来”或“放下去”。
比喻：这就像你指挥一个助手。你指一下目标（眼神），然后说“把这个给我”（语音）。这种组合比单纯用眼神（容易误触）或单纯用语音（描述位置太累）都要高效得多。

5. 实际效果：快、准、稳

研究人员找了一些手部有障碍的志愿者做了测试：

更准：在静态物体上，准确率高达 98%；在物体移动时，也能紧紧跟上，准确率 94%。
更累：志愿者的心理负担（认知负荷）大大降低，因为不需要费力地盯着看，也不需要反复确认。
更顺：任务完成时间缩短了，而且机器人不会像以前那样突然“卡壳”或乱动。

总结

这项技术就像给机器人装上了一双**“懂人心”的眼睛**。它不再死板地等待你长时间凝视，而是能敏锐地捕捉到你那一瞬间的意图，并利用“粘性”算法过滤掉杂乱的抖动。

对于行动不便的人来说，这意味着他们可以用最自然的“一瞥”和“一句话”，就能轻松指挥机器人完成复杂的任务，让科技真正变得有温度、易使用。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心挑战：
在辅助机器人领域，眼动（Gaze）是运动障碍患者（如上肢残疾者）与机器人交互的重要通道。然而，现有的基于眼动的意图识别系统在复杂、动态的多物体环境中面临巨大挑战：

噪声与微扫视 (Noise & Micro-saccades)： 人眼存在自然的微小抖动，导致视线点漂移，容易误选或丢失目标。
动态环境与视角变化： 物体移动、用户头部运动以及多视角（人眼视角 vs 机器人视角）的对齐困难，使得视线到物体的映射（Grounding）变得模糊。
现有方法的局限性：
- 注视时间阈值法 (Fixation-based)： 需要用户长时间注视，牺牲了响应速度，且易受微扫视干扰。
- 统计平滑/概率模型： 往往忽略物体中心的几何一致性，或需要大量标注数据和复杂的参数调整，泛化性差。
- 离散控制： 大多数系统采用“确认后才动作”的离散控制模式，缺乏意图形成过程中的连续反馈，导致交互不流畅且任务耗时。

目标：
构建一个鲁棒的系统，能够在单次短促注视 (Single-Glance) 下（仅需 3 个采样点），从噪声视线中稳定地识别出用户意图的物体，并实现连续、安全的机器人控制。

2. 方法论 (Methodology)

该系统提出了一种以物体为中心的眼动接地 (Object-Centric Gaze Grounding) 框架，结合连续共享控制策略。主要包含以下模块：

A. 感知与投影 (Perception & Projection)

数据采集： 使用 Meta ARIA 眼镜采集人眼视线和 RGB 图像，机器人端使用 Intel Realsense D435i 采集深度图。
视线轨迹重投影： 利用 SLAM 和 IMU 数据，将上一帧的视线点重投影到当前帧，构建连续的视线轨迹。
物体检测与建模： 使用 YOLO26 进行物体检测。针对长宽比不同的物体，将其近似为外接圆（或沿主轴的多个圆），以容忍视线噪声和检测误差。

B. Sticky-Glance 意图预测算法 (核心创新)

该算法旨在构建一个以物体为中心的置信度场，将视线映射到几何空间而非单纯的视线空间。

几何距离证据 ( $e_{dist}$ )： 计算视线点与物体中心的距离。如果视线进入物体区域，置信度设为 1；否则，根据视线是靠近还是远离物体，动态调整置信度。
方向趋势证据 ( $e_{dir}$ )： 定义切向锥 (Tangent Cone)。如果视线位移向量位于切向锥内（即视线正朝向物体运动），则给予正向证据；如果视线穿过物体或发散，则给予负向证据。
积分更新机制： 算法不依赖长时间注视，而是通过时间积分累积距离和方向证据。
- 即使视线短暂扫过（Glance），只要几何趋势正确，置信度会迅速上升并“粘附”（Sticky）在目标物体上。
- 能有效过滤微扫视噪声，仅在积累足够的空间和方向证据后才确认意图。
性能： 仅需 3 个视线采样点 即可识别意图。

C. 多视角对齐 (Multi-Perspective Alignment)

问题： 解决人眼视角看到的物体与机器人视角看到的物体之间的对应关系。
方法： 提出基于最优匹配的算法。利用 LightGlue 进行特征匹配估计相机位姿，将机器人端的 3D 点云投影到用户视角图像中，计算投影框与检测框的 IoU，通过匈牙利算法寻找最佳匹配。
优势： 相比传统的 ArUco 标记或纯特征匹配，该方法在远距离和大角度变化下仍保持高对齐精度（>0.84）。

D. 连续共享控制与交互范式 (Continuous Shared Control)

预命令模式 (Pre-command)： 在用户明确语音指令前，机器人根据视线置信度加权生成虚拟目标。机器人以受控速度向高置信度目标缓慢移动（Slow-following），提供连续反馈，减少最终任务距离。
后命令模式 (Post-command)： 用户通过语音确认动作（如"Pick"）后，系统锁定目标，机器人全速执行抓取。
安全确认机制： 机器人到达目标后暂停，等待语音确认。若用户拒绝，自动切换至次高置信度目标或复位，确保安全性。
多模态交互 ("Glance-Say")： 视线负责物体定位（高效、直观），语音负责动作指定（消除歧义）。

3. 主要贡献 (Key Contributions)

Sticky-Glance 算法： 提出了一种无需长时间注视、无需初始化即可稳定工作的意图识别模块。通过联合建模几何距离和方向趋势，实现了在微扫视和动态物体下的鲁棒跟踪（动态跟踪率 0.92，静态选择准确率 0.98）。
连续共享控制策略： 引入基于置信度的连续运动生成，在意图形成阶段即提供预对齐行为，显著提升了交互的响应速度和可预测性。
多模态交互协议： 设计了“ glance-say"（看一眼 + 说一声）的交互流程，结合视线定位和语音执行，大幅降低了认知负荷。
全面的实验验证： 涵盖了动态跟踪、多视角对齐、基线对比、用户研究及消融实验，证明了系统在效率、鲁棒性和可用性上的优势。

4. 实验结果 (Results)

意图识别鲁棒性：
- 动态跟踪率： 0.92（优于 LSTM 0.28, HMM 0.81, kNN 0.22）。
- 静态选择准确率： 0.98（优于 Fixation-based 0.84）。
- 最小采样数： 仅需 3 个点（HMM 需 20 个，LSTM 需 25 个）。
多视角对齐： 在 80cm 距离和 180°视角变化下，对齐准确率仍保持在 0.84 以上，显著优于 ArUco 和传统特征匹配方法。
任务完成度：
- 任务成功率： 0.96 (S4 复杂场景)，优于 FAM-HRI (0.73) 和 GlanceGaze (0.59)。
- 任务耗时： 29.5 秒，比 FAM-HRI 减少近 10%。
- 命令输入耗时： 1.4 秒，显著短于 MR-GUI (5.8s) 和 GlanceGaze (2.4s)。
用户研究 (User Study)：
- NASA-TLX (认知负荷)： 25.57，显著低于所有基线（FAM-HRI 为 35.36，FreeView 高达 81.21）。
- SUS (系统可用性)： 86.42，显著高于其他方法。
- 用户反馈表明，该系统学习成本低，任务成功率高，交互更自然。

5. 意义与结论 (Significance)

技术突破： 解决了眼动交互中“噪声”与“速度”的矛盾。传统方法为了抗噪必须牺牲速度（长注视），而 Sticky-Glance 通过几何约束和方向趋势分析，实现了既快又准的意图识别。
交互范式革新： 从“离散触发”转向“连续共享控制”。机器人在用户思考过程中就开始预移动，极大地缩短了任务总时长，提升了人机协作的流畅度。
实际应用价值： 为严重运动障碍人士提供了一种高效、低认知负荷的机器人控制方案。系统仅需单次短促注视即可锁定目标，极大地降低了用户的操作负担。
未来方向： 当前系统仍包含部分手工设计组件，未来计划开发端到端的多模态模型，以进一步提升在非结构化环境中的泛化能力。

总结： 该论文提出了一套完整的、基于“单次注视”的鲁棒人机协作系统，通过创新的几何意图稳定算法和连续共享控制，显著提升了眼动控制在动态复杂场景下的实用性、效率和安全性。