Sticky-Glance: Robust Intent Recognition for Human Robot Collaboration via Single-Glance

该论文提出了一种名为"Sticky-Glance"的以物体为中心的注视锚定框架,通过联合建模几何距离与方向趋势,在仅需 3 个注视样本的情况下即可实现高鲁棒性的意图识别,并结合连续共享控制范式显著提升了人机协作的效率与体验。

Yuzhi Lai, Shenghai Yuan, Peizheng Li, Andreas Zell

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 "Sticky-Glance"(粘性一瞥) 的新系统,旨在帮助那些手部行动不便的人(比如高位截瘫患者)通过**“看一眼” + “说一句话”**来轻松控制机器人手臂。

想象一下,你坐在轮椅上,想拿起桌上的苹果。以前,你可能需要盯着苹果看很久(比如 2 秒),或者在屏幕上点来点去,这既累人又容易出错。而这项新技术,让你只需要快速地瞥一眼苹果,机器人就能立刻明白你的意图,并开始向你“靠拢”。

为了让你更直观地理解,我们可以用几个生活中的比喻来拆解这项技术:

1. 核心难题:眼神的“抖动”与“犹豫”

人的眼睛其实很“调皮”。即使你想盯着一个东西,眼球也会不由自主地微小跳动(这叫微扫视),或者因为头稍微动了一下,视线就偏了。

  • 旧方法的问题:以前的系统像是一个**“死板的保安”**。如果你盯着苹果看的时间不够长(比如没达到 2 秒),保安就认为你没看准,不让你进;或者如果你眼神稍微抖了一下,保安就以为你改主意了,把你赶出去。这在动态环境(比如苹果在动)中特别容易失效。

2. 解决方案:Sticky-Glance(粘性一瞥)

作者发明了一个**“粘性磁铁”**机制。

  • 比喻:想象你的视线是一个带有粘性的飞镖
    • 当你看向苹果时,飞镖并没有直接扎在苹果上就结束,而是带有一种“粘性”。
    • 即使你的视线因为手抖或头动稍微偏离了一点,这个“粘性”也会把飞镖拉回到苹果上。
    • 系统会同时计算两个因素:距离(你离苹果多近)和方向(你的视线是不是正朝着苹果移动)。
    • 结果:只要你的视线扫过苹果(哪怕只有 3 个数据点,也就是眨眼间的一瞥),系统就能确认:“哦,他是想要这个苹果!”而不是让你死盯着不放。

3. 人机协作:像“自动驾驶”一样的机器人

一旦机器人确认了你想拿苹果,它不会傻站着等你发号施令。

  • 比喻:这就像**“自动驾驶汽车”**。
    • 当你看向苹果时,机器人就像一辆正在缓慢滑行的车,它已经“预感”你要去那里,并开始慢慢向苹果靠拢(这叫“连续共享控制”)。
    • 当你确认了(比如你说“拿起来”),它就直接加速完成动作。
    • 好处:这比那种“先完全停住,等你确认,再启动”的旧模式快了近 10%,而且感觉更自然、更流畅。

4. 眼睛与嘴巴的“完美搭档”

系统采用了**“看一眼 + 说一声”**的模式:

  • 眼睛(定位):负责告诉机器人“我要哪个”。就像你在人群中用眼神锁定朋友。
  • 嘴巴(指令):负责告诉机器人“我要做什么”。比如你说“拿起来”或“放下去”。
  • 比喻:这就像你指挥一个助手。你一下目标(眼神),然后“把这个给我”(语音)。这种组合比单纯用眼神(容易误触)或单纯用语音(描述位置太累)都要高效得多。

5. 实际效果:快、准、稳

研究人员找了一些手部有障碍的志愿者做了测试:

  • 更准:在静态物体上,准确率高达 98%;在物体移动时,也能紧紧跟上,准确率 94%
  • 更累:志愿者的心理负担(认知负荷)大大降低,因为不需要费力地盯着看,也不需要反复确认。
  • 更顺:任务完成时间缩短了,而且机器人不会像以前那样突然“卡壳”或乱动。

总结

这项技术就像给机器人装上了一双**“懂人心”的眼睛**。它不再死板地等待你长时间凝视,而是能敏锐地捕捉到你那一瞬间的意图,并利用“粘性”算法过滤掉杂乱的抖动。

对于行动不便的人来说,这意味着他们可以用最自然的“一瞥”和“一句话”,就能轻松指挥机器人完成复杂的任务,让科技真正变得有温度、易使用。